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本 书 详细 介绍 了 编译 程序 设计 中 的 词法 分 析 (扫描 程序 ) 、 语 法 分 析 (分 析 程 序 ) 、 语 义 分 析 ( 约 
REF) 、 中 间 代 码 优化 以 及 代码 生成 等 内 容 。 作 为 颇 受 好 评 的 编译 原理 优秀 入 门 教材 ， 本 书 的 最 大 特 
色 是 在 全 书 贯穿 了 一 种 基于 文法 的 指导 思路 :在 语法 分 析 阶 段 ， 该 书 遵循 了 一 般 教 材 采用 的 上 下 文 无 关 
文法 ;在 语义 分 析 阶 段 ， 采 用 以 上 下 文 无 关 文 法 为 基础 的 属性 文法 ， 而 在 代码 优化 和 代码 生成 阶段 ， 则 
采用 了 变换 属性 文法 。 书 中 最 后 还 给 出 变换 属性 文法 的 一 种 自 编译 实现 。 此 外 ， 本 书 还 探讨 了 面向 不 同 
计算 机 体系 结构 的 代码 生成 技术 以 及 非 过 程式 语言 的 编译 问题 。 

本 书 适合 作为 高 等 院 校 计算 机 科学 与 技术 、 软 件 工 程 以 及 相关 专业 编译 原理 课程 的 教学 参考 书 ， 同 
时 也 可 供 计算 机 语言 及 其 处 理 技术 爱好 者 参考 。 


本 书 特点 
e 坚定 不 移 地 扎根 于 文法 ， 一 开始 就 介绍 文法 和 语言 识别 器 之 间 的 理论 关系 ， 然 后 贯穿 全 书 将 文法 
技术 应 用 到 编译 程序 设计 的 每 一 方面 。 
e 统一 将 实用 的 属性 文法 作为 编译 程序 语义 的 载体 ， 坚 持 这 一 立场 自然 会 产生 一 个 完全 由 属性 文法 
定义 的 、 可 编译 其 自身 的 “编译 程序 一 编译 程序 
e 具有 非常 实用 的 特征 ， 编 译 程序 的 “设计 ”必须 以 属性 文法 定义 ， 而 编译 程序 的 “构造 ” 则 需要 
可 执行 的 代码 ， 并 且 每 一 个 重要 的 理论 原则 均 需 通过 一 种 真实 程序 设计 语言 的 大 量 代码 清单 加 以 
阐明 ， 不 断 展示 文法 与 机 器 代码 之 间 极 其 自然 的 天 系 。 
选择 Modula-2 作 为 演示 代码 的 程序 设计 语言 ， 旨 在 概念 抽象 与 具体 效率 之 间 取 得 平衡 。 
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本 书 详细 介绍 了 编译 程序 设计 中 的 词法 分 析 (扫描 程序 )、 语 法 分 析 〈 分 析 程序 )、 语 义 分 析 〈 约 束 程序 入 
中 间 代 码 优化 以 及 代码 生成 等 内 容 。 作 为 颇 受 好 评 的 编译 原理 经 典 教材 ， 本 书 的 最 大 特色 是 在 全 书 贯穿 了 一 
种 基于 文法 的 指导 思路 ， 语 义 分 析 、 代 码 优化 、 代 码 生成 等 均 采用 文法 定义 其 规格 说 明 ， 并 且 最 后 给 出 了 变 
换 属性 文法 (TAG) 的 一 种 自 编译 实现 。 此 外 ， 本 书 还 探讨 了 面向 不 同 计算 机 体系 结构 的 代码 生成 技术 以 及 
非 过 程式 语言 的 编译 问题 。 

本 书 适合 作为 高 等 院 校 计算 机 科学 与 技术 、 软 件 工 程 以 及 相关 专业 编译 原理 课程 的 教学 参考 书 ， 同 时 也 
可 供 计算 机 语言 及 其 处 理 技术 爱好 者 参考 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 闻名 
家 非 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 i 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 成 略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 儿 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 -- 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 昂 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 ; 
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SABE. hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ，100037 





mum 


长 期 以 来 ， 编 译 原理 一 直 是 计算 机 相关 专业 本 科 生 的 专业 主干 课程 。 提 起 编译 原理 的 英文 
原版 教材 ,许多 人 自然 想到 龙 书 (A. Aho 等 人 所 著 《Compilers: Principles, Techniques, and Tools), 
俗称 Dragon Book)、 虎 书 (A. Appel 所 著 《Modern Compiler Implementation in C/Java/ML), 1& 
FR Tiger Book). 4% (S. Muchnick PrzE (Advanced Compiler Design and Implementation), (& 
称 Whale Book) 等 经 典 著 作 ， 其 中 鲸 书 侧重 于 编译 程序 的 后 端 ， 并 不 适合 第 一 门 编译 原理 课程 
使 用 。 此 外 ， 较 有 影响 力 的 教材 还 有 K. Louden Si (Compiler Construction: Principles and 
Practice). C. Fischer 等 人 所 著 《Crafting a Compiler with C). K. Cooper 5& A Bi3E (Engineering 
a Compiler? (AR A. Holub ft (Compiler Design in C) ^S. 

与 上 述 流行 教材 相 比 ， 由 美国 阿肯色 大 学 T. Pittman 和 J. Peters 合 著 的 本 书 的 最 大 特色 ， 
是 在 全 书 贯 穿 了 一 种 基于 文法 的 指导 思路 : 在 语法 分 析 阶 段 ， 该 书 遵循 了 一 般 教 材 采 用 的 上 下 
文 无 关 文 法 ; 在 语义 分 析 阶 段 ， 采 用 以 上 下 文 无 关 文 法 为 基础 的 属性 文法 ， 而 在 代码 优化 和 代 
码 生成 阶段 ， 则 采用 了 变换 属性 文法 。 书 中 最 后 还 给 出 变换 属性 文法 的 一 种 自 编译 实现 。 由 于 
将 文法 技术 贯穿 于 编译 程序 设计 的 每 一 方面 ， 设 计 人 员 可 以 在 规格 说 明 层 次 定义 一 种 语言 的 语 
法 和 语义 ， 这 将 有 益 于 编译 程序 的 实现 无 论 采用 手工 方式 ， 还 是 基于 生成 工具 的 自动 方式 )。 
例如 ， 书 中 “Tiny BASIC 解释 程序 ”和 “Micro-Modula 美化 打印 工具 ”这 两 个 例子 很 好 地 展 
示 了 这 一 方法 的 强大 能 力 ， 以 及 独立 于 具体 实现 语言 的 特性 。 

本 书 虽 然 扎 根 于 文法 ， 但 又 不 至 于 装 述 文法 。 例 如 ， 与 很 多 教材 不 同 的 是 ， 本 书 基于 下 推 
自动 机 模型 讲解 LL(k) 分 析 技 术 ， 有 助 于 读者 更 好 地 理解 编译 程序 设计 与 其 理论 基础 之 间 的 关 
联 。 又 如 ， 定 义 正 则 语言 的 形式 化 工具 包括 正则 表达 式 、 正 则 文法 《〈 左 线性 和 右 线 性 )、 有 穷 
状态 自动 机 〈 确 定 的 和 不 确定 的 ) 等 多 种 等 价 方式 ， 它 们 之 间 的 等 价 转换 是 编译 原理 的 重要 理 
论 基 础 ， 本 书 在 词法 分 析 部 分 重点 介绍 了 从 定义 词法 规则 的 正则 表达 式 〈 或 正则 文法 ) 到 约 简 
的 确定 有 穷 状 态 自 动机 这 一 变换 路 径 上 的 各 个 环节 ， 而 不 像 一 些 教材 那样 将 形式 语言 和 自动 机 
理论 的 许多 内 容 未 加 以 精心 筛选 就 照搬 到 编译 原理 课程 中 。 

尽管 本 书 在 编译 程序 设计 的 应 用 技术 与 理论 基础 之 韶 的 折 中 可 圈 可 点 ， 但 也 有 未 尽 人 意 之 
处 ， 例 如 第 7 章 关 于 LR(k) 分 析 技 术 的 介绍 可 能 会 令 许 多 初学 者 “ 知 其 然而 不 知 其 所 以 然 ”。 在 
介绍 编译 程序 后 端的 许多 内 容 时 ， 本 书 也 因为 过 于 简略 并 且 缺 少 具体 例子 的 解说 ， 给 读者 理解 
相关 技术 造成 困难 。 

鉴于 本 书 编写 年 代 较 早 ， 书 中 未 涉及 近 十 多 年 来 编译 程序 的 原理 、 方 法 、 技 术 、 工 具 等 方 
面 的 最 新 进展 ， 辟 如 面向 对 象 程序 设计 语言 的 编译 、 垃 圾 收集 机 制 的 实现 、 许 多 代码 优化 技术 
等 , 这 是 读者 使 用 本 教材 时 应 注意 的 地 方 。 但 这 并 不 妨碍 本 书 作 为 第 一 门 编译 原理 课程 的 优秀 
入 门 教材 或 参考 书 ， 这 些 不 足 可 通过 其 他 较 新 的 教材 弥补 。 

中 山大 学 计算 机 科学 系 软件 工程 实验 室 (selab@sysu) ARIK, FAI Pia, F 
朱 建 伟 、 梁 粳 佳 、 吴 梓 彦 仔细 阅读 了 译 稿 ， 并 提出 了 宝贵 的 意见 和 建议 ， 译 者 对 此 表示 更 心 感 
谢 。 由 于 译 者 水 平 所 限 ， 书 中 廖 误 之 处 在 所 难免 ， 恳 请 广大 读者 不 吝 批评 指正 。 
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实用 且 复 杂 的 现代 信息 系统 并 不 是 从 累积 的 偶然 事件 中 发 展 起 来 的 。 编 译 程序 作为 一 个 实 
用 的 信息 系统 ， 只 有 经 过 精心 设计 ， 才 能 以 简单 的 措辞 理解 其 复杂 性 。 不 仅 未 经 设计 的 编译 程 
序 会 有 功能 缺陷 ， 编 译 程序 理论 本 身 还 依赖 于 它 与 两 种 理论 之 闻 的 一 种 微妙 关系 ， 其 中 一 种 理 
论 是 源 自 人 类 自然 语言 的 语言 学 原理 ， 另 一 种 理论 是 将 计算 机 看 作 有 穷 状态 自动 机 。 理 解 并 利 
用 这 一 关系 需 在 文法 理论 的 基本 原理 方面 有 扎实 的 根基 ， 并 熟练 掌握 其 机 械 化 实现 过 程 。 因 而 
编译 程序 设计 的 教学 亦 涉及 一 个 复杂 的 信息 系统 ， 需 精心 设计 才能 以 连贯 、 合 理 的 次 序 展 示 相 
关 概 念 ， 从 而 让 学 生体 会 到 编译 程序 设计 的 内 容 既 是 相关 的 ， 也 是 可 管理 的 。 

本 书 并 非 一 本 试图 以 所 有 可 能 的 方法 去 构造 所 有 可 能 的 编译 程序 的 百科 全 书 , 而 是 依次 介 
绍 编译 程序 设计 中 的 最 基本 问题 ， 其 内 容 的 深度 足以 让 勤奋 的 学 生 有 能 力 通过 手工 方式 或 使 用 
编译 程序 生成 工具 〈 亦 或 两 种 方式 之 结合 )， 构 造 实 用 且 高 效 的 编译 程序 。 更 重要 的 是 ， 学 生 
将 明白 这 些 工具 是 如 何 工作 的 ， 以 及 为 什么 必须 以 某 种 方式 书写 文法 方 可 取得 预期 的 结果 。 这 
正 是 设计 的 原则 。 因 此 ， 尽 管 大 多 数 现代 分 析 程 序 生成 工具 采用 自 底 向 上 分 析 技 术 ， 但 本 书 深 
入 研究 有 更 多 限制 的 自 项 向 下 分 析 理 论 ， 然 后 才 利用 相对 简短 〈 但 完整 ) 的 一 章 内 容 学 习 自 底 
向 上 分 析 程 序 。 本 书 每 一 章 的 目标 都 是 先 灌输 对 基本 概念 的 理解 ， 然 后 再 将 这 些 概 念 应 用 到 实 
践 中 。 

与 同类 教材 相 比 ， 本 书 在 四 个 重要 方面 有 显著 特色 。 第 一 个 特色 是 ， 它 坚定 不 移 地 扎根 于 
文法 ， 一 开始 就 介绍 文法 和 语言 识别 器 之 闻 的 理论 关系 ， 然 后 贯穿 全 书 将 文法 技术 应 用 到 编译 
程序 设计 的 每 一 方面 。 第 二 个 特色 是 ,统一 将 实用 的 属性 文法 作为 编译 程序 语义 的 载体 ， 坚 持 
这 一 立场 自然 会 产生 一 个 完全 由 属性 文法 定义 的 、 可 编译 其 自身 的 “编译 程序 一 编译 程序 ”， 
这 正 是 本 书 最 后 一 章 的 重点 。 第 三 个 特色 是 ， 具 有 非常 实用 的 特征 ， 编 译 程序 的 设计 必须 以 属 
性 文法 定义 ， 而 编译 程序 的 构造 则 需要 可 执行 的 代码 ， 并 且 每 一 个 重要 的 理论 原则 均 需 通过 一 
种 真实 程序 设计 语言 的 大 量 代码 清单 加 以 阐明 ， 不 断 展 示 文 法 与 机 器 代码 之 间 极 其 白 然 的 关 
系 。 第 四 个 特色 是 ， 选 择 Modula-2 作为 演示 代码 的 程序 设计 语言 ， 旨 在 概念 抽象 与 具体 效率 
之 间 取 得 平衡 ; 与 C 语言 等 更 低级 的 语言 相 比 ， 应 用 本 书后 几 章 所 介绍 的 优化 技术 能 以 更 低 的 
开销 更 显著 地 提高 Modula-2 程序 的 效率 。 

本 书 可 用 于 一 学 期 的 编译 原理 入 门 课程 ， 重 点 介绍 前 6 章 或 前 7 章 。 本 书 亦 可 用 于 整 学 年 
的 学 习 ， 更 好 地 涉 猜 更 多 的 高 级 课题 。 一 学 期 的 课程 学 习 可 安排 在 半年 或 一 个 季度 的 时 间 内 完 
成 : 经 过 不 断 优化 和 实际 教学 检验 ， 本 书 循序 渐进 地 布置 学 生 实 验 项 目 ， 并 在 期 末 完 成 一 个 可 
工作 的 Itty Bitty Modula 编译 程序 ， 该 编译 程序 可 在 最 终 的 实验 项 目 中 用 于 编译 男 一 个 分 析 程 
序 ， 例 如 第 6 章 最 后 概述 的 美化 打印 工具 或 Tiny BASIC 语言 解释 程序 。 

书 中 的 某 些 章节 和 练习 被 设计 为 任 选 的 。 虽 然 我 们 坚信 编译 程序 设计 需要 扎实 的 理论 基 
础 ， 但 根据 时 间 安 排 或 学 生 能 力 等 ， 某 些 章节 中 的 一 些 趣 味 数 学 内 容 可 略 过 ， 这 些 内 容 在 其 


页 边 空 白 处 用 一 个 “教师 授课 ”图 标 注 明 。 另 一 些 章节 虽 与 编译 程序 设计 的 主要 问题 
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密切 相关 ， 但 由 于 本 书 的 定位 是 初学 编译 原理 的 学 生 ， 他 们 的 水 平 难以 理解 这 些 内 容 ， 因 而 


在 这 些 章节 的 页 边 空白 处 标注 了 一 个 “ 石 中 剑 ” 图 标 。 类 似 地 ， 有 些 问 题 富有 挑战 性 ， 
读者 解决 这 些 问题 有 助 于 更 好 地 理解 编译 程序 设计 的 错综复杂 ， 但 不 在 这 些 问 题 上 花费 额外 
的 时 间 和 精力 , 也 不 影响 对 课程 内 容 的 良好 理解 , 因而 在 这 些 问 题 的 页 边 空白 处 也 标注 了 “ 石 
mij" Es. 

尽管 无 法 逐一 向 所 有 对 本 教材 作出 贡献 的 人 致谢 ， 我 们 仍 要 首先 感谢 Brad Blaker， 没 有 他 
的 鼓励 和 早期 协助 ， 本 书 将 不 会 面世 ， 感谢 Bi Hankley、Austin Melton 和 堪萨斯 州立 大 学 耐 
心 的 同学 们 ， 他们 坚持 使 用 了 早期 的 书稿 感谢 Frank DeRemer 孕育 了 书 中 的 许多 思想 。Thom 
Boyer. Dick Karpinski, Brian Kernighan. Marvin Zelkowitz、Wayne Citrin, Norman C. Hutchinson, 
Johnson M. Hart, Bernhard Weinberg. Will Gillett， 特 别 是 Dean Pittman, Chota 和 Dave Schmidt 
等 人 提出 的 意见 和 建议 对 本 书 的 最 终 定稿 有 莫大 帮助 。 


Thomas Pittman 


James Peters 
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编译 领域 里 程 碑 式 的 经 典 著 作 -- 龙 书 ，20 年 后 终于 出 版 新 版 ! 这 是 一 个 延绵 30 年 的 故事 ， 这 是 一 部 关于 
龙 书 的 传奇 ! 最 新 版 本 ， 增 添 两 章节 内 容 ， 使 龙 书 地 位 更 权威 ! 

本 书 是 编译 领域 无 可 将 代 的 经 典 著作 ， 被 广大 计算 机 专业 人 士 誉 为 “ 龙 书 ”。 本 书 上 一 版 自 1986 年 出 版 
以 来 ， 被 世界 各 地 的 著名 高 等 院 校 和 研究 机 构 ( 包括 美 国 哥伦比亚 大 学 、 斯 坦 福 大 学 、 哈 佛 大 学 、 普 林 斯 顿 
QI Ra AES] 作为 本 科 生 和 研究 生 的 编译 原理 课程 的 教材 。 该 书 对 我 国 高 等 计算 机 教育 领域 也 产生 了 

大 影响。 

第 2 版 对 每 一 章 都 进行 了 全 面 的 修订 ， 以 反映 自 上 一 版 出 版 20 多 年 来 软件 工程 。 程 序 设计 语言 和 计算 机 
体系 结构 方面 的 发 展 对 编译 技术 的 影响 。 本 书 全 面 介绍 了 编译 器 的 设计 ， 并 强调 编译 技术 在 软件 设计 和 开发 
中 的 广泛 应 用 。 每 章 中 都 包含 大 量 的 习题 和 丰富 的 参考 文献 。 
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第 1 章 编译 程序 理论 概述 


本 章 旨 在 : 

e 综述 编译 的 目的 和 方法 

e 介绍 语言 规格 说 明 中 的 文法 概念 
。 纵览 一 个 编译 程序 的 结构 

o 介绍 编译 程序 使 用 的 基本 数据 结构 
。 区 别 词法 分 析 和 语法 分 析 

e 综述 编译 程序 的 前 端 和 后 端 


1.1 简介 


在 计算 机 科学 中 ， 编 译 程序 设计 是 为 数 不 多 的 抽象 理论 彻底 改变 程序 编写 方式 的 领域 之 
一 。 最 早 的 编译 程序 大 多 采用 基于 直觉 与 经 验 的 非 正规 方法 编写 ， 使 用 传统 的 程序 设计 技术 。 
文法 驱动 的 分 析 程 序 的 出 现 改变 了 这 一 切 。 我 们 现在 所 看 到 的 真正 编译 程序 ， 全 是 先 用 上 下 文 
无 关 文 法 书写 ， 然 后 再 机 械 地 转换 为 代码 。 

本 书 讨论 现代 编译 程序 的 设计 ， 因 而 势必 涉及 文法 。 一 个 优秀 编译 程序 的 每 一 部 分 均 以 某 
种 方式 与 定义 它 的 文法 联系 在 一 起 。 本 书 将 展示 一 个 编译 程序 的 文法 规格 说 明 就 是 该 编译 程 
序 ， 只 不 过 采用 了 非常 高 级 的 语言 编写 ， 本 书 还 将 说 明 如 何 利用 文法 编写 一 个 编译 程序 ， 以 及 
如 何 编写 文法 的 编译 程序 ， 将 文法 编译 为 编译 程序 。 设 计 是 由 文法 理论 驱动 的 ， 因 而 设计 是 清 
晰 的 且 易 于 实现 的 。 聪 明 的 读者 可 在 数 日 内 从 本 书 学 会 如 何 为 一 门 简单 但 实际 可 行 的 程序 设计 
语言 编写 一 个 完整 的 编译 程序 。 

12 语言 与 翻译 程序 

类 似 于 英语 、 法 语 、 俄 语 等 自然 语言 ， 计 算 机 语言 为 信息 交流 定义 了 一 种 将 单词 组 织 为 名 
” 子 的 方式 。 自 然 语言 可 用 于 交流 内 心 的 感觉 、 外 界 的 事实 、 关 于 这 些 事实 和 感觉 的 疑问 、 听 众 或 
读者 必须 遵从 的 指示 等 ， 而 计算 机 语言 通常 仅 限 于 表达 接收 这 些 语 言 的 机 器 必须 遵从 的 命令 。 

自然 语言 限制 了 可 表达 的 形式 ， 但 并 未 限制 可 表达 的 内 容 。 例 如 ， 在 英语 中 可 以 说 “Peter 
hit the ball”, 但 不 能 说 “ball Peter the hit ”前 者 在 文法 上 是 正确 的 ， 而 后 者 不 正确 ， 类 似 地 ， 
在 法 语 中 文法 正确 的 说 法 是 “Pierre frappa la balle". 懂得 上 述 两 种 语言 的 读者 可 能 立即 意识 到 
上 述 英 语句 子 和 法 语句 子 说 的 是 同一 件 事 ， 即 它们 具有 相同 的 含义 ， 但 对 于 仅 熟悉 其 中 一 种 语 
言 的 读者 就 未 必 是 显而易见 的 。 单 词 “frappa” 对 于 说 英语 的 人 是 没有 意义 的 ， 单 词 “hit” 在 
法 语 中 也 没有 任何 含义 。 即 使 通过 字典 查 到 这 两 个 动词 的 含义 ， 各 门 语言 的 文法 还 定义 了 动词 
的 时 态 ， 这 些 时 态 由 单词 的 形式 指明 : 上 述 两 个 动词 都 是 过 去 时 。 

当 说 英语 的 人 想 与 说 法 语 的 人 交流 ， 并 且 两 人 均 不 了 解 对 方 语 言 时 ， 有 必要 带 上 一 位 翻译 
人 员 。 在 自然 界 中 ， 翻 译 人 员 收 到 用 一 种 语言 表达 的 信息 后 ， 用 另 一 语言 重复 这 一 信息 。 将 英 
语 翻 译 为 法 语 的 翻译 人 员 读 到 “Peter hit the ball” IN, W5 H “Pièrre frappa la balle”, WRB 
译 人 员 遇 到 “ball Peter the hit” 这 种 表示 时 ， 他 可 能 回复 说 这 一 句子 没有 意义 ， 因为 它 在 英语 
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中 没有 意义 ， 所 以 无 法 将 此 句 翻译 成 一 个 有 意义 的 法 语句 子 。 

编译 程序 是 一 个 扮演 着 翻译 人 员 角 色 的 计算 机 程序 ， 它 读 入 某 一 计算 机 语言 的 语句 ， 如 果 
这 些 语句 在 该 语言 中 是 有 意义 的 ， 则 将 它们 翻译 为 含义 相同 的 另 一 计算 机 语言 的 语句 。 有 一 些 
规则 定义 了 每 一 种 语言 中 什么 是 有 意义 的 ， 编 译 程序 运用 这 些 规则 确定 其 输入 是 否 有 意义 ， 并 
保证 其 输出 是 有 意义 的 。 使 用 计算 机 语言 编写 的 一 系列 语句 组 成 一 个 程序 ; 编译 程序 将 一 种 计 
算 机 语言 〈 称 为 源 语言 ) 的 程序 翻译 为 另 一 种 计算 机 语言 〈 称 为 目标 语言 ) 的 程序 (BOE 
列 )。 

实际 上 存在 多 种 计算 机 语言 以 及 计算 机 语言 的 翻译 程序 。 最 简单 的 翻译 程序 是 读 入 一 种 用 
简单 计算 机 语言 书写 的 单词 ， 然 后 将 这 些 单词 直接 翻译 为 计算 机 指令 代码 中 的 数字 。 这 种 翻译 
程序 称 为 汇编 程序 ， 其 源 语言 称 为 汇编 语言 。 这 一 命名 缘 于 大 多 数 机 器 指令 由 几 个 部 分 组 成 ， 
汇编 语言 采用 不 同 的 单词 或 数字 表示 每 一 部 分 ， 汇 编程 序 则 将 这 些 部 分 组 装 成 一 个 数值 代码 。 
汇编 程序 充其量 不 过 是 一 个 表 查 找 例 程 ， 在 表 中 查找 源 语言 中 每 一 单词 对 应 的 数字 表示 ， 并 将 
查找 结果 输出 ， 作 为 目标 语言 程序 的 组 成 部 分 。 汇 编 语言 通常 使 得 程序 员 可 准确 、 直 接地 访问 
计算 机 硬件 的 每 一 功能 ;然而 与 大 多 数 其 他 计算 机 语言 相 比 ， 使 用 汇编 语言 编写 正确 的 程序 是 
相当 困难 的 。 

“编译 程序 ”这 一 术语 一 般 留 给 更 复杂 的 语言 使 用 ， 其 中 源 语 言 单 词 和 目标 语言 之 间 不 存 
在 简洁 而 直接 的 对 应 关系 。 大 多 数 编译 程序 的 目标 语言 通常 也 是 机 器 语言 ， 这 与 汇编 程序 的 目 
标语 言 相同 ， 计 算 机 语言 翻译 程序 的 目的 固然 是 简化 创建 机 器 语言 程序 的 过 程 ， 但 许多 早期 的 
编译 程序 、 甚 至 一 些 现 代 的 编译 程序 都 先 编译 为 汇编 语言 ， 然 后 借助 于 汇编 程序 完成 汇编 语言 
到 机 器 语言 的 翻译 。 然 而 ， 编 译 程序 的 源 程序 通常 是 所 谓 的 高 级 语言 (简称 HLL)， 高 级 语言 
的 特点 是 更 接近 于 问题 求解 的 表示 法 ， 而 不 是 机 器 语言 。 例 如 ， 对 于 商业 应 用 而 言 ，COBOL 
(COmmon Business Oriented Language) 语言 采用 会 计 人 员 和 中 层 管理 人 员 易 于 理解 的 术语 ; 而 
科学 计算 问题 往往 表述 为 公式 ，FORTRAN (FORmula TRANslator) 语言 被 认为 更 适合 表达 这 
些 公 式 。 现 在 一 些 程序 员 更 喜欢 一 种 语言 既 有 高 级 语言 中 更 抽象 的 结构 ， 又 带 有 汇编 程序 支持 
的 低层 控制 ， 为 此 他 们 使 用 C 语言 (得 名 于 它 作为 早期 B 语言 的 下 一 代 语 言 )。 程 序 设计 方法 
学 的 最 新 进展 提倡 模块 化 软件 设计 ，Modula-2 语言 非常 强调 这 一 特性 。 

解释 程序 在 某 些 方面 类 似 于 翻译 程序 ， 它 也 读 入 一 个 高 级 语言 的 程序 ， 但 立即 进行 翻译 ， 
就 好 像 翻 译 人 员 的 口译 一 样 立即 可 听 到 和 理解 。 编 译 程序 将 一 个 计算 机 程序 翻译 为 稍 后 再 执行 
的 机 器 代码 ， 而 解释 程序 则 边 读 入 、 边 执行 程序 。 从 某 种 意义 上 讲 ， 解 释 程序 从 来 没有 真正 地 
完成 翻译 过 程 ， 就 好 像 前 述 例子 中 的 翻译 人 员 ， 当 他 听 到 “Peter hit the ball /” 的 指示 后 ， 并 
不 回应 “Pierre, frappa la balle !", 而 是 径 自 走 过 去 击 球 。 由 于 解释 程序 不 必 关 注目 标语 言 ， 它 
可 以 比 编译 程序 更 快 地 处 理 一 行 输入 程序 。 解 释 程 序 必须 反复 读 入 其 输入 程序 以 计算 结果 ， 但 
编译 程序 仅 将 输入 程序 翻译 一 次 。 编 译 程序 首次 运行 计算 机 程序 并 得 到 结果 要 花费 更 长 时 间 ， 
但 后 续 的 运行 则 远 快 于 解释 程序 ， 因 为 此 时 不 再 需要 额外 的 翻译 时 间 。 

本 书 的 重点 放 在 编译 程序 的 设计 上 ， 但 某 些 练习 也 包含 了 解释 程序 。 


1.3 ”文法 的 作用 
我 们 从 英语 或 法 语 这 类 自然 语言 中 学 到 的 特性 之 一 是 这 些 语 言 的 文法 。 一 门 语言 的 文法 定 
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义 了 该 语言 中 句子 的 正确 形式 。 例 如 ， 英 语 中 可 能 有 一 些 如 下 的 规则 : 


sentence 一 noun-phrase verb  noun-phrase 
verb > "hit" 
noun-phrase > article noun 
一 proper-name 
article 3 "a" | "the" 
noun 一 "ball" | "bat" 
proper-name > "Peter" 


上 述 文法 表明 ， 一 个 句子 可 由 两 个 名 词 短语 中 间 加 上 动词 组 成 ， 即 文法 中 由 单词 sentence 
表达 的 抽象 概念 “句子 ”可 重 写 或 替换 为 三 个 抽象 概念 “名 词 短语 ” “动词” 和 另 一 “名 词 短 
语 ” 组 成 的 序列 。 一 个 名 词 短语 可 以 是 Peter 这 一 类 专 有 名 词 ， 也 可 以 是 带 有 冠 词 the 或 a 的 普 
通 名 词 ball。 本 例 中 的 动词 自然 是 hit。 

类 似 地 ， 计 算 机 语言 的 文法 通过 指定 语言 中 的 抽象 概念 如 何 重 写 为 更 具体 的 符号 序列 ， 定 
义 了 该 语言 中 名 子 的 正确 形式 。 文 法 中 的 每 一 重 写 规则 均 表 示 为 一 个 单词 通过 一 个 箭头 连接 到 
一 个 或 多 个 单词 。 当 然 ， 这 里 所 说 的 “句子 ”会 在 计算 机 语言 中 给 出 细致 的 定义 。 

从 单词 sentence FHA, 上述 小 文法 不 仅 可 产生 句子 “Peier hit the ball”, 还 可 产生 “a ball hit 
Peter” MA EMH] “Peter hit Peter” 等 句子 。 当 文法 定义 了 多 个 选项 时 (要 么 用 多 个 箭头 ， 
要 么 用 “或 ”分 隔 符 “1”)， 可 选择 其 中 任 一 选项 用 于 重 写 第 头 左 边 名 字 的 一 次 出 现 。 一 个 文法 
产生 的 语言 ， 是 由 逐一 选择 每 一 可 能 选项 的 所 有 组 合 所 产生 的 全 部 句子 的 集合 ， 上 述 文法 的 语 
言 恰好 有 25 个 可 能 的 句子 。 

一 门 程序 设计 语言 通常 由 两 个 不 同 的 文法 定义 ， 其 中 一 个 文法 定义 了 语言 的 单词 ， 另 一 
文法 定义 了 这 些 单词 是 如 何 组 合 在 一 起 的 。 类 似 地 ， 文 法 还 可 用 于 书写 目标 语言 的 定义 ， 最 
新 的 研究 已 开始 关注 如 何 从 源 语言 和 目标 语言 的 文法 自动 构造 一 个 编译 程序 ， 但 研究 成 果 良 
芝 不 齐 。 因 而 ， 本 书 仍 遵循 更 传统 的 编译 程序 设计 方法 学 ， 使 用 属性 文法 明确 地 定义 翻译 工 
作 是 如 何 进行 的 。 定 义 一 个 编译 程序 时 可 使 用 多 种 文法 ， 每 一 文法 均 定 义 了 编译 程序 中 某 一 
部 件 的 功能 。 

最 重要 的 一 类 文法 是 短语 结构 文法 ， 它 定义 了 一 个 编译 程序 或 解释 程序 的 核心 部 件 ， 该 部 
件 称 为 分 析 程 序 。 短 语 结构 文法 定义 了 计算 机 语言 中 的 “单词 ”如 何 组 织 在 一 起 ， 形 成 一 个 合 
乎 语法 的 程序 。“ 分 析 ” 是 自然 语言 研究 中 的 一 个 术语 ， 描 述 了 根据 文法 的 形式 分 析 该 语言 
一 个 句子 的 过 程 ; 考虑 计算 机 语言 时 ， 我 们 以 完全 相同 的 方式 使 用 该 术语 。 上 述 关于 英语 语言 
的 小 文法 是 一 个 短语 结构 文法 。 

第 二 重要 的 文法 通常 用 于 定义 计算 机 语言 中 单词 的 正确 形式 或 拼写 方法 ， 该 文法 称 为 词汇 
文法 (lexical grammar)， 得 名 于 “单词 ”一 词 的 拉丁 文 。 编 译 程序 中 ， 分 析 输 入 程序 中 各 个 单 
词 的 部 分 称 为 扫描 程序 。 我 们 可 按 如 下 方式 为 英语 单词 定义 一 个 词汇 文法 ; 

word 一 letter word 
一 letter 
其 中 , 每 个 letter 表示 英文 字母 表 中 26 个 字母 之 一 。 尽 管 该 文法 会 生成 一 大 堆 毫 无 意义 的 单词 ， 
但 它 说 明了 生成 一 个 非常 大 的 语言 未 必需 要 一 个 复杂 的 文法 。 实 际 上 该 文法 定义 的 语言 是 无 穷 
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的 ， 只 要 我 们 选择 第 一 个 选项 ， 在 一 个 单词 之 前 再 添加 一 个 字母 ， 则 可 得 到 任意 长 度 的 单词 。 

在 词汇 文法 和 短语 结构 文法 上 附加 一 些 值 ( 称 之 为 属性 ) 以 及 属性 求 值 函数 、 断 言 等 ， 即 
可 定义 一 个 编译 程序 的 翻译 过 程 ; 还 可 使 用 其 他 属性 文法 定义 编译 程序 如 何 改进 被 编译 程序 的 
时 间或 空间 性 能 。 我 们 可 利用 断言 避免 诸如 “Perer hit Peter” 这 类 没有 意义 的 句子 ， 例 如 由 断 
言 约束 文法 产生 的 每 一 句子 中 仅 含 最 多 一 个 专 有 名 词 。 

本 书 重点 讨论 基于 文法 的 编译 程序 构造 方法 。 我 们 认为 文法 是 一 个 编译 程序 的 高 级 语言 规 
格 说 明 ， 实 际 上 它 也 是 一 个 编译 程序 。 换 而 言 之 ， 所 有 编译 程序 设计 都 应 深入 探讨 如 何 编写 一 
个 文法 ， 以 定义 语言 的 各 组 成 部 分 及 其 翻译 过 程 ， 只 要 妥善 完成 了 这 一 任务 ， 编 译 程序 设计 的 
其 余部 分 就 都 是 机 械 的 且 可 自动 化 的 。 本 书 还 详细 介绍 了 根据 文法 自动 构造 一 个 编译 程序 的 工 
具 ， 由 于 这 些 工具 本 身 也 是 编译 程序 ， 因 此 它们 的 设计 也 成 为 本 书 的 重要 部 分 。 


14 若干 例子 


我 们 关注 于 将 编译 程序 的 构造 作为 一 个 语言 规格 说 明 的 逻辑 扩展 ， 这 种 做 法 的 好 处 之 一 是 
让 我 们 更 容易 体会 到 由 文法 定义 的 强 类 型 语言 的 清晰 设计 。FORTRAN 语言 的 设计 采用 了 较为 
随意 的 方式 表示 数学 公式 和 简单 控制 结构 。 由 于 没有 用 文法 的 规格 说 明 驱 动 语言 的 设计 ， 为 
FORTRAN 编译 程序 编写 一 个 确定 的 且 快 速 的 扫描 程序 是 极其 痛苦 的 。 例 如 ， 考 虑 以 下 两 行 语 
句 ， 它 们 在 FORTRAN 语言 的 最 初版 本 中 都 是 合法 的 (注意 ， 空 格 在 FORTRAN 语言 中 是 无 意 
义 的 ， 故 可 全 部 省 略 ): 
DO10K-1.9 
DO10K=1,9 
第 一 行 是 一 条 赋值 语句 ， 将 实数 值 1.9 赋值 给 浮 点 类 型 变量 Do10K;， 第 二 行 是 一 个 循环 
结构 的 开头 部 分 ， 该 循环 以 一 条 标号 为 10 的 语句 结尾 ， 其 控制 变量 K 从 1 步 进 到 9。 这 里 未 
能 识别 一 行 带 语句 标号 10 的 语句 作为 循环 的 终结 符 ， 因 而 编译 程序 无 法 判断 第 一 行 语句 是 否 
本 意 写 成 第 二 行 的 样子 而 在 键盘 录入 时 输 错 了 【反之 亦 然 )。 实 际 上 ， 已 有 报导 说 首 架 金星 探 
测 器 陨落 坠 地 的 损失 正 是 归 短 于 这 样 的 一 个 程序 设计 错误 (逗号 与 英文 句号 如 此 误 用 完全 改变 
了 控制 太空 探测 器 的 FORTRAN 程序 的 含义 )。 此 外 ， 上 述 例 子 中 编译 程序 必须 检查 完 该 语句 
中 除 最 后 一 个 字符 之 外 的 所 有 字符 ,才能 开始 考虑 如 何 处 理 第 一 行 语句 ， 即 该 语句 是 以 关键 字 
DO 开头 ， 还 是 以 一 个 实数 变量 的 标识 符 开头 。 
FORTRAN 语言 是 每 一 位 语言 设计 人 员 的 首选 攻击 对 象 。 我 们 仅 论 及 该 语言 的 另 一 经 典 难 
题 ， 这 一 例子 还 说 明了 这 些 困难 原本 可 由 合理 且 无 二 义 的 文法 规格 说 明 消除 。 在 以 下 4 行 无 意 
义 的 程序 中 ， 第 10 行 是 一 条 赋值 语句 ， 还 是 一 条 输出 语句 的 格式 说 明 ? 
DIMENSION FORMAT (72) 
10 FORMAT(X3H)-(I5) 
WRITE(6,10)K 
END 
然而 ，FORTRAN 语言 并 不 是 惟一 的 罪人 。 发 明 FORTRAN 语言 时 ， 还 没有 计算 机 语言 也 
文法 定义 ; 当时 仅 有 自然 语言 的 有 关 研 究 刚 认 识 到 上 下 文 无 关 语 言 的 概念 。 但 FORTRAN 语言 
的 设计 师 之 一 John Backus (约翰 .巴克 斯 ) 接着 改造 了 这 一 新 概念 ， 其 成 果 现在 以 他 的 名 字 命 
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44: Backus-Naur Form (BNF， 有 时 也 称 为 Backus Normal Form (巴克 斯 范式 ))。BNF 是 一 种 
为 程序 设计 语言 书写 文法 的 方法 ， 首 先 应 用 在 ALGOL 60 语言 的 规格 说 明 中 。 本 书 中 使 用 的 文 
法 与 BNF 有 少许 区 别 ， 但 这 仅仅 是 表面 上 的 区 别 。 在 BNF 中 ， 上 述 英语 语言 的 文法 片段 如 下 
例 所 示 : 


«sentence» 
«verb» 
«noun-phrase» 


«noun-phrase» «verb» «noun-phrase» 
hit 

«article» «noun» 

«proper-name» 


"ou m W m d I 


«article» a | the 
«noun» ball | bat 
«proper-name» Peter 


Niklaus Wirth JE E37 8i * KS) 试图 简化 ALGOL 语言 编译 程序 的 设计 方面 ， 同 时 保留 
它 的 一 些 形式 化 性 质 ， 其 结果 是 1970 年 诞生 了 Pascal 语言 。Pascal 语言 虽 经 形式 化 文法 精心 
设计 ， 但 仍 潜伏 了 一 个 错误 ， 导 致 文法 是 二 义 的 。 该 问题 源 自 对 if 语句 中 可 选 else 子 句 的 
解析 ， 因 为 当 并 非 所 有 嵌 套 的 if 语句 都 有 一 个 else 子 句 时 ， 其 文法 无 法 形式 化 地 指定 如 何 
将 一 个 else 关联 到 嵌 套 的 if 语句 。 沃 思 意 识 到 这 一 问题 , 并 提出 一 种 特别 的 解决 方案 (elge 
与 内 层 的 if£ 配对 ), 而 不 是 改正 文法 中 的 错误 ， 其 中 有 一 个 重要 原因 ; 没有 二 义 性 的 语言 用 起 
来 将 更 加 笨拙 。 在 实际 程序 中 ， 大 量 的 条 件 语句 需要 else 子 句 ， 同 时 也 有 大 量 的 条 件 语句 不 
使 用 它 ， 要 求 在 所 有 情况 下 都 带 有 else 子 句 将 使 程序 难以 书写 和 阅读 ， 但 如 果 排 除 else T 
名 又 将 削弱 语言 。 因 而 else 子 句 是 可 选 的 ， 而 语言 则 是 二 义 的 。 该 语言 的 一 个 特点 就 是 形式 
化 的 正确 性 让 位 于 用 户 的 便利 。 

沃 思 的 下 一 代 系 统 程序 设计 语言 Modula-2 以 一 种 可 读 的 且 文 法 正确 的 方式 解决 了 上 述 问 
题 。Modula-2 语言 保留 了 可 选 的 else 子 句 ， 同 时 又 没有 Pascal 语言 的 二 义 性 。 但 沃 思 似 乎 并 
没有 真正 地 吸取 教训 ，Modula-2 语言 出 现 了 另 一 问题 : 无 法 为 其 编译 程序 构造 一 个 纯正 的 有 穷 
状态 扫描 程序 。 以 注释 屏蔽 部 分 代码 〈 包 括 注释 本 身 ) 的 能 力 再 次 服务 于 程序 员 的 便利 ， 即 使 
不 惜 以 实现 的 简单 性 为 代价 。 很 不 幸 ， 这 导致 了 定义 有 问题 的 (就 算 不 是 二 义 的 ) 扫描 程序 文 
法 。 以 沃 思 为 榜样 ， 大 多 数 实现 人 员 解 决 这 一 难题 的 办 法 就 是 忽略 它 ， 这 种 做 法 的 后 果 是 并 非 
所 有 代码 片段 都 能 成 功 地 通过 在 起 、 止 位 置 添 加 注释 分 隔 符 被 注释 屏蔽 。 代 码 清单 1.1 展示 了 
一 个 病态 的 例子 ， 其 中 试图 以 注释 屏蔽 代码 ， 在 编译 时 不 会 出 现 错误 ， 但 却 有 意外 的 结果 。 


代码 清单 1,1 在 Modula-2 语言 中 以 注释 屏蔽 一 些 代码 的 失败 尝试 。 注 意 ， 加 
下 划 线 表示 的 新 可 执行 语句 其 前 身 是 一 个 字符 串 常量 的 一 部 分 


MODULE pathological; MODULE pathological; 
(* 原 程序 *) (* 注释 屏蔽 前 2 条 语句 *) 
FROM InOut IMPORT FROM InOut IMPORT 

WriteString; WriteString; 
VAR VAR 

anyString: ARRAY [0 .. 99] OF CHAR; anyString: ARRAY [0 .. 99] OF CHAR; 
BEGIN BEGIN 

Qe 新 的 注释 区 域 开始 
IF 1 < 2 THEN IF 1 < 2 THEN 
anyString :- "Hello!" anyString :- "Hello!" 


ELSE ELSE 
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anyString :- anyString :- 
‘*) WriteString("Surprise!"); (*' ' *) WriteString("Surprise!"); (*' 
END; (* IF *) END; (* IF *) 
WriteString(anyString); WriteString(anyString); 
新 的 注释 区 域 结束 ******) 
WriteString(" What happened?") WriteString(" What happened?") 
END pathological. END Pathological. 
Hello! What happened? Surprise! What happened? 







修改 后 的 抽象 语法 树 
代码 生成 程序 
机 器 代码 


窥 孔 优化 程序 


优化 后 的 机 器 代码 










1-1 编译 程序 的 组 成 部 分 


1.5 编译 程序 的 结构 


一 个 编译 程序 由 四 个 核心 部 件 组 成 ， 如 图 1-1 中 粗 框 所 示 : 扫描 程序 、 分 析 程 序 、 约 束 程 
序 以 及 代码 生成 程序 。 扫 描 程 序 读 入 源 程 序 文本 文件 ， 将 它 看 作 由 字符 组 成 的 串 ， 并 从 中 识别 
出 一 个 由 字 和 符号 组 成 的 流 ， 这 些 字 和 符号 称 为 单词 (token)。 分 析 程 序 将 扫描 程序 输出 的 单 
词 作为 输入 ， 识 别 出 源 语言 的 短语 结构 ， 并 构造 一 棵 抽象 语法 树 (简称 AST) 传递 给 下 一 步 。 
约束 程序 强加 了 类 型 和 声明 规则 的 限制 ， 并 为 AST 添加 “装饰 ” 约束 程序 通常 被 视 为 分 析 程 
序 的 一 部 分 ， 因 为 它们 的 工作 是 如 此 紧密 地 结合 在 一 起 。 代 码 生成 程序 根据 抽象 语法 树 构造 目 
标 机 器 代码 。 扫 描 程 序 和 约束 程序 通常 各 自 构建 私有 的 数据 结构 ， 用 于 辅助 各 自 的 识别 过 程 ; 
扫描 程序 建立 一 个 字符 串 表 ， 其 中 存放 了 标识 符 的 拼写 、 字 符 串 常量 等 ， 约 束 程 序 则 建立 一 个 
符号 表 ， 其 中 包含 标识 符 的 语义 信息 ， 这 些 信 息 是 在 源 程 序 中 声明 或 使 用 标识 符 时 收集 的 。 

除了 上 述 四 个 核心 部 件 之 外 ， 编 译 程序 还 可 包括 一 个 或 多 个 优化 模块 。 有 两 类 优化 ， 它 们 
对 目标 机 器 代码 特性 的 依赖 程度 有 很 大 区 别 。 机 器 无 关 的 优化 通常 在 抽象 语法 树 上 操作 ， 将 抽 
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化 是 机 器 有 关 优化 程序 的 最 常见 形式 ， 在 代码 生成 程序 产生 的 目标 机 器 代码 上 操作 ， 对 这 些 代 
码 进行 某 些 局 部 的 改进 。“ 宕 孔 优 化 ”的 名 字 缘 于 这 一 优化 形式 每 次 仅 检查 少量 指令 (有 如 通 
过 锁 眼 之 类 的 有 限 视 角 进 行 窥视 )， 也 只 修改 所 观测 到 的 指令 。 

尽管 我 们 将 扫描 程序 、 分 析 程 序 、 约 束 程序 以 及 代码 生成 程序 展示 成 一 排 ， 好 像 工 厂 的 组 
装 线 上 的 一 个 个 岗位 ， 但 编译 程序 的 实际 结构 却 往往 因 大 多 数 计算 机 的 工作 方式 而 有 所 不 同 。 
如 图 1-1 所 示 ， 扫 描 程 序 、 分 析 程 序 、 约 束 程序 、 优 化 程序 以 及 代码 生成 程序 看 起 来 是 相互 独 
立 的 程序 ， 每 一 程序 读 入 一 个 输入 文件 ， 进 行 一 些 内 部 加 工 后 ， 再 写 入 一 个 输出 文件 ， 供 下 一 
程序 读 入 。 而 真正 的 编译 程序 往往 由 分 析 程序 作为 一 个 主 程序 ， 由 它 调 用 扫描 程序 、 约 束 程序 
以 及 代码 生成 程序 等 子 程序 ， 如 图 1-2 所 示 。 对 扫描 程序 的 每 次 调用 仅 返 回 单个 单词 ， 对 约束 
程序 的 每 次 调用 都 是 在 符号 表 中 查找 单个 标识 符 ， 或 校 验 单个 表达 式 运算 符 的 操作 数 类 型 ， 对 
代码 生成 程序 的 每 次 调用 均 为 发 送 单个 语义 动作 ， 产 生 一 条 或 多 条 目标 代码 指令 。 


分 析 程 序 











语义 动作 
代码 生成 程序 
机 器 代码 


优化 程序 


优化 后 的 机 器 代码 





约束 程序 






图 1-2 编译 程序 的 结构 

1.5.1 词法 分 析 

虽然 语言 手册 在 定义 一 门 程序 设计 语言 时 通常 采用 单一 文法 ， 一 路 往 下 定义 ， 直 至 一 个 个 
字符 组 成 文法 的 各 个 部 分 ， 然 而 将 字符 识别 过 程 与 结构 识别 相 分 离 往往 效率 更 高 ， 这 要 求 分 别 
定义 语言 的 词汇 文法 和 短语 结构 文法 。 由 于 理论 上 的 原因 ， 分 析 程 序 无 法 匹配 一 个 声明 与 引用 
必须 拼写 相同 的 标识 符 ， 因 而 将 标识 符 ( 以 及 各 类 常量 ) 的 拼写 从 分 析 程 序 执行 的 短语 结构 识 
别 中 分 离 出 来 也 会 带 来 方便 。 一 个 称 为 扫描 程序 的 模块 负责 完成 此 项 任务 。 

扫描 程序 的 规格 说 明 由 一 个 文法 给 出 ， 该 文法 定义 了 源 语言 中 所 有 合法 的 单词 。 一 个 单词 
表示 分 析 程 序 期 待 读 入 的 单个 原子 符号 ， 例 如 任意 的 特殊 字符 、 数 字 、 字 或 由 字符 组 成 的 一 个 
串 。“ 单 词 ” 这 一 术语 指 的 是 任 一 文法 所 定义 的 语言 中 的 一 个 符号 ， 尽 管 我 们 通常 仅 限于 在 分 
析 程 序 的 文法 中 使 用 该 术语 。 扫 描 程 序 是 一 个 分 析 输 入 文本 文件 并 识别 其 中 合法 单词 的 过 程 ， 
这 些 单词 即 是 由 字符 组 成 的 串 〈 每 个 串 都 属于 词汇 文法 定义 的 语言 )， 将 作为 一 个 个 单词 传递 
给 分 析 程 序 。 非 法 的 单词 也 会 被 识别 出 来 ， 并 采取 合适 的 出 错 恢复 动作 使 编译 过 程 得 以 继续 ; 
如 果 一 个 编译 程序 能 尝试 尽 可 能 多 地 分 析 源 程序 ， 而 不 是 遇 到 第 一 个 错误 就 停 下 来 ， 那 么 这 样 
的 编译 程序 更 加 实用 。 

扫描 程序 的 功能 称 为 词法 分 析 ， 因 为 它 分 析 输入 语言 的 词素 ( 即 一 个 字 )。 每 一 识别 出 来 
的 词素 被 转换 为 扫描 程序 输出 流 中 的 一 个 单词 。 通 常 分 析 程 序 调用 扫描 程序 以 获得 一 个 单词 ， 
扫描 程序 一 旦 识别 到 一 个 单词 就 立即 返回 给 分 析 程序 。 因 而 ， 单 词 流 并 不 是 真正 汇集 到 -一 个 文 
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件 或 其 他 数据 结构 中 ， 我 们 只 是 为 了 便于 区 分 编译 程序 的 各 组 成 部 分 才 如 此 看 待 它 ; 在 任 一 时 
刻 ， 仅 存在 一 个 这 样 的 单词 ， 它 就 是 分 析 程 序 正在 处 理 的 下 一 单词 。 

典型 的 程序 设计 语言 可 能 定义 了 50 一 100 个 不 同 的 单词 ， 在 源 文件 中 ， 每 个 单词 通常 表示 
为 若干 字符 组 成 的 串 。 此 外 ， 源 程序 中 可 能 含有 许多 空白 空格、 换行、 制 表 等 字符 以 提高 
可 读 性 ， 以 及 对 程序 的 含义 不 起 作用 的 注释 (从 计算 机 的 角度 看 ); 扫描 程序 将 单词 传递 给 分 
析 程 序 之 前 ， 会 将 它们 全 部 删除 ， 其 结果 是 扫描 程序 产生 的 单词 流 与 输入 文本 文件 相 比 ， 有 一 
个 数量 级 甚至 更 多 的 缩减 。 编 译 的 大 部 分 时 间 往 往 花 在 扫描 程序 上 ， 因 而 极 大 限度 地 提高 扫描 
程序 的 效率 相当 重要 。 将 扫描 程序 从 分 析 程序 中 分 离 出 来 的 原因 之 一 ， 是 因为 识别 单词 的 词汇 
文法 更 简单 ， 并 且 可 以 用 比分 析 程序 所 需 的 那 类 文法 更 为 高 效 的 方式 处 理 。 

在 现代 程序 设计 语言 中 ， 单 词 可 看 作 是 输入 程序 中 粒度 仅 大 于 单个 字符 的 部 分 。 图 1-3 E 
示 了 从 字符 到 单词 、 再 到 抽象 语法 树 的 这 一 层次 。 





表达 式 


语句 
抽象 语法 树 VA | N / Ux: 
小 十 赋值 


并 单词 标识 符 操作 符 “实数 常量 ”then 单词 。 标识 符 。 操作 符 ” 标 识 符 end 单词 


sx [E] E] E] Bs] Gel P] [5]. [:] [8] 


ot 
\ 








图 1-3 字符 、 单 词 和 抽象 语法 树 示 例 


1.5.2 FBR 

扫描 程序 传递 给 分 析 程 序 的 单词 已 清除 了 所 有 附加 的 可 辨识 特性 ， 例 如 标识 符 是 如 何 拼写 
的 、 常 量 的 值 等 等 ， 分 析 程 序 的 文法 并 不 关心 这 些 细 节 。 然 而 ， 这 些 信息 不 能 像 注 释 或 单词 之 
间 多 余 的 空白 那样 弃 如 敞 履 。 实 际 上 ， 编 译 程序 的 一 个 功能 正 是 将 特定 的 内 存 位 置 与 每 一 个 惟 
一 的 变量 标识 符 相 关联 ， 并 在 一 个 过 程 或 程序 中 始终 如 一 地 处 理 它们 ; 因而 标识 符 的 拼写 是 有 
意义 的 ， 而 且 必 须 加 以 检查 。 

FORTRAN 语言 最 初版 本 的 编译 程序 规定 ， 所 有 标识 符 不 可 长 于 一 个 计算 机 字 所 能 容纳 的 
字符 数 ， 但 现代 程序 设计 语言 力图 支持 相对 较 长 的 标识 符 。 即 便 很 少 标识 符 会 达到 最 大 长 度 ， 
在 符号 表 中 仍 需 为 最 大 字符 数 分 配 存储 空间 ; 除了 由 此 带 来 的 低 效 之 外 ， 每 次 在 符号 表 中 查找 
名 字 时 ， 比 较 两 个 长 字符 串 的 相等 也 是 笨拙 和 费时 的 。 

解决 上 述 两 个 问题 的 一 种 方法 是 将 每 一 个 惟一 标识 符 的 拼写 编码 为 单个 整数 或 指针 ， 该 值 
可 在 有 需要 时 用 于 访问 标识 符 的 拼写 (通常 仅 用 于 出 错 信息 和 装载 映像 表 )， 并 且 比 较 一 对 单 
个 原子 值 的 相等 远 快 于 字符 串 的 比较 。 标 识 符 的 拼写 压缩 存储 在 一 个 字符 串 表 中 ， 指 向 字符 串 
表 的 指针 或 下 标 可 作为 一 个 标识 符 的 现成 的 惟一 引用 。 扫 描 程 序 的 任务 之 一 就 是 管理 字符 串 
表 , 插入 新 的 标识 符 和 其 他 字符 串 , 查找 其 中 已 有 的 字符 串 并 将 其 惟一 的 下 标 传递 给 约束 程序 。 
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1.5.8 ”语法 分 析 

分 析 程 序 是 编译 程序 的 驱动 引 璧 ， 控 制 着 扫描 程序 和 代码 生成 程序 。 它 识别 以 单词 流 表示 
的 输入 程序 的 短语 结构 〈 即 语法 )。 我 们 一 般 认 为 分 析 程 序 的 输出 是 一 个 抽象 谱 法 树 ， 但 往往 
并 不 建立 这 样 的 树 ， 而 是 由 分 析 程 序 的 执行 流 追 踪 遍 历 这 棵 抽象 树 或 想象 树 的 一 条 路 径 ， 以 某 
种 指定 的 方式 访问 其 中 的 每 一 结 点 。 因 而 ， 如 果 我 们 以 图 形 方式 记录 下 执行 轨迹 ， 在 编译 程序 
结束 时 它 就 是 一 棵 抽象 语法 树 ; 但 在 任 一 时 刻 ， 仅 存在 抽象 语法 树 的 一 个 片段 (可 能 是 树 中 从 
根 结 点 到 当前 结 点 的 路 径 )， 并 且 难 以 明确 地 标识 出 来 。 

在 理论 上 ， 抽 象 语 法 树 相 当 于 学 过 高 中 英语 的 学 生 所 熟悉 的 语法 图 : 每 个 单词 由 树 中 的 某 
一 部 分 表示 ， 整 个 结构 由 各 部 分 的 相互 连接 来 定义 。 

有 两 类 常用 的 确定 分 析 算 法 。 最 古老 的 是 自 顶 向 下 方法 ， 从 顶部 (大 多 数 数学 上 的 树 都 是 
从 顶部 夯 根 结 点 〉 出 发 ， 自 根 结 点 向 下 构造 抽象 语法 树 ， 对 于 根据 文法 手工 编程 而 言 ， 这 种 方 
法 也 是 相当 简单 的 。 自 底 向 上 的 分 析 从 单词 开始 , 逐个 分 枝 构 造 这 棵 树 ， 一 边 识别 更 多 的 程序 ， 
一 边 将 分 枝 连接 为 越 来 越 大 的 子 树 ， 直 至 所 有 子 树 最 终 连 接 为 一 个 表示 整个 程序 的 抽象 语法 
树 。 自 顶 向 下 和 自 底 向 上 分 析 都 是 按 从 左 到 右 的 次 序 读 入 源 单词 ， 但 是 应 用 文法 规则 的 次 序 则 
不 相同 。 据 此 ， 自 顶 向 下 分 析 有 一 个 等 价 的 术语 : LL 分 析 ( 第 一 个 L 表示 从 左 到 右 扫 描 ， 第 
二 个 工 表示 最 左 推导 )， 自 底 向 上 分 析 也 有 一 个 等 价 术语 : LR 分 析 (L 表示 从 左 到 右 扫 描 ，R 
表示 逆序 的 最 右 推导 )。 
15.4 ”约束 

约束 程序 即 编译 程序 中 的 静态 语义 处 理 阶段 ， 通 常 被 视 作 分 析 程 序 的 一 部 分 ， 但 实际 上 其 
实现 方式 与 分 析 程 序 的 语法 检查 功能 完全 不 同 。 语 义 分 析 程 序 这 一 术语 常用 于 表示 一 个 与 某 一 
部 分 代码 生成 功能 相 结 合 的 约束 程序 ， 但 我 们 宁可 区 别 对 待 这 些 功 能 。 约 束 程序 是 辨别 错误 源 
程序 与 合法 源 程序 时 必 不 可 少 的 部 分 ， 但 不 可 能 根据 构造 分 析 程 序 的 同类 文法 自动 地 构造 一 个 
约束 程序 。 

必须 检查 的 约束 包括 校 验 所 有 的 标识 符 在 使 用 之 前 均 已 声明 ， 过 程 调用 中 使 用 的 标识 符 不 
是 声明 为 枚 举 类 型 的 常量 ， 整 数 类 型 的 表达 式 没 有 赋值 给 布尔 类 型 的 变量 或 与 它们 进行 比较 ， 
等 等 。 图 1-3 所 示 的 程序 片段 中 ， 约 东 程 序 将 校 验 标识 符 a 要 么 是 一 个 实数 类 型 的 常量 ， 要 么 
是 一 个 实数 类 型 的 变量 ， 以 及 标识 符 bottom 应 声明 为 一 个 实数 类 型 的 变量 。 

本 书 在 约束 检查 中 使 用 属性 文法 。 由 于 属性 文法 是 用 于 构造 分 析 程序 的 上 下 文 无 关 文法 的 
自然 扩展 ， 这 是 实现 约束 的 一 种 相当 省 事 的 方法 。 
1.5.5 ”符号 表 

符号 表 是 由 编译 程序 为 被 编译 程序 中 各 个 标识 符 添加 的 语义 信息 组 成 的 知识 库 ， 这 些 信息 
通常 称 为 属性 ， 但 本 书 避 免 使 用 该 术语 ， 以 防 与 属性 文法 混淆 。 符 号 表 中 的 一 个 入 口 必须 至 少 包 
A: 某 个 引用 ， 指 向 标识 符 的 拼写 〈 如 果 不 是 英文 单词 中 的 字符 ); 一 个 值 ， 表 示 该 标识 符 所 命 
名 的 变量 或 过 程 的 内 存 位 置 或 访问 路 径 ， 以 及 一 些 标志 位 ， 用 于 区 别 变量 、 过 程 和 其 他 标识 符 。 
1.5.6 ”代码 生成 

编译 程序 通常 划分 为 两 半 。 编译 程序 的 前 端 注 重 分 析 , 即 识别 一 个 合法 的 输入 源 程 序 文件 ; 
后 端 注重 合成 ， 即 生成 目标 机 器 的 代码 。 前 端 由 扫描 程序 、 分 析 程 序 和 约束 程序 组 成 ， 后 端 则 
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由 代码 生成 程序 和 各 种 优化 模块 组 成 。 对 一 个 解释 程序 而 言 ， 其 后 端 则 是 产生 计算 结果 的 那 一 
部 分 ， 尽 管 解释 程序 通常 并 不 使 用 该 术语 。 

编译 程序 设计 人 员 的 职责 是 定义 一 个 特定 的 目标 机 器 指令 序列 , 该 指令 序列 可 正确 地 翻译 
抽象 语法 树 中 每 一 可 标识 的 结 点 。 有 文献 曾 报导 过 几 项 研究 ， 它 们 试图 给 出 目标 机 器 语言 的 文 
法 和 语义 规格 说 明 ， 从 而 可 构造 一 个 合适 的 “编译 程序 一 编译 程序 ”推导 出 必要 的 代码 生成 规 
则 ， 但 这 些 成 果 在 实际 应 用 中 并 不 十 分 成 功 。 本 书 采 取 更 传统 的 立场 ， 要 求 编译 程序 设计 人 员 
自己 给 出 这 些 变换 的 规格 说 明 。 

代码 生成 程序 是 编译 程序 的 一 部 分 ， 它 负责 根据 源 程 序 的 内 部 表示 真正 地 生成 输出 代码 。 
在 “一 遍 ” 编 译 程序 (正如 本 书 作为 练习 的 许多 实验 项 目 ) 中 ， 代 码 是 根据 分 析 程 序 文法 中 的 
语义 动作 规格 说 明 “ 即 时 ”生成 的 : 只 要 被 识别 的 一 个 源 程序 结构 可 产生 目标 机 器 代码 ， 就 立 
即 生成 这 些 代 码 。 这 种 做 法 限制 了 所 能 编译 的 语言 类 别 ， 以 及 所 生成 代码 的 效率 。 

大 多 数 编译 程序 的 目标 语言 是 目标 机 器 的 本 地 机 器 语言 。 最 早 的 编译 程序 生成 汇编 语言 并 
放 在 一 个 文本 文件 中 ， 然 后 将 该 文件 转交 一 个 汇编 程序 处 理 。 这 种 方案 在 简单 的 “一 遍 ” 编 译 
程序 中 会 带 来 一 些 好 处 ， 但 额外 的 汇编 步骤 所 带 来 的 低 效 很 容易 抵消 这 些 好 处 。 虽 然 本 书 有 少 
量 练习 题 涉及 源 程序 到 源 程序 的 翻译 问题 ， 即 将 一 种 高 级 程序 设计 语言 翻译 成 另 一 种 高 级 程序 
设计 语言 ， 但 练习 的 重点 仍 是 直接 生成 机 器 语言 〈 也 称 为 本 地 代码 )。 

计算 机 硬件 通常 依照 不 同 的 性 能 和 体系 结构 规格 说 明 进 行 设计 ， 其 中 某 些 硬件 对 同一 源 程 
序 必须 生成 的 代码 类 别 会 造成 深刻 影响 。 本 书 不 打算 详细 讨论 所 有 常见 的 体系 结构 ， 而 是 深入 
研究 一 种 零 地 址 栈 机 器 ， 因 为 这 是 生成 代码 的 最 简单 目标 机 器 。 代 码 优化 涉及 对 寄存 器 的 体系 
结构 以 及 内 存 到 内 存 的 操作 进行 研究 。 我 们 相信 ， 在 代码 生成 基本 概念 方面 打下 的 扎实 基础 同 
样 适用 于 几乎 所 有 的 体系 结构 ， 不 管 特定 的 操作 细节 是 否 相同 。 勤 奋 的 读者 可 找到 大 量 机 会 为 
不 同 的 目标 体系 结构 生成 代码 。 
1.5.7 优化 

优化 是 编译 程序 为 改进 执行 时 间或 代码 空间 而 修改 其 内 部 数据 结构 或 所 生成 代码 的 过 程 。 
尽管 最 早 的 编译 程序 已 可 执行 许多 优化 ,但 此 后 的 优化 算法 研究 仍 做 了 大 量 工作 。 某 些 常用 的 
算法 基于 坚实 的 理论 ， 但 在 实际 应 用 中 许多 优化 策略 的 结果 却 是 特 设 的 代码 。 在 优化 阶段 ， 很 
少见 到 像 将 编译 程序 前 端的 设计 简化 为 一 个 带 属 性 的 上 下 文 无 关 文法 的 机 械 翻 译 这 种 自动 生 
成 方式 ; 换 而 言 之 ， 编 写 一 个 正确 的 优化 程序 远 比 编写 一 个 正确 的 分 析 程 序 复杂 。 

在 编译 程序 设计 中 ， 不 同 的 代码 生成 策略 会 带 来 或 多 或 少 的 优化 机 会 。 如 果 一 个 编译 程序 
中 的 代码 生成 程序 足够 完善 ， 它 可 能 已 经 隐 式 地 完成 了 一 些 优化 任务 ; 而 对 于 那些 只 有 非常 简 
单 的 代码 生成 程序 的 编译 程序 ， 这 些 任 务 将 留待 该 编译 程序 的 优化 程序 完成 。 因 而 ， 一 个 追踪 
寄存 器 内 容 的 代码 生成 程序 可 消除 宛 余 的 装 入 指令 ， 否 则 这 一 优化 工作 将 留待 峙 孔 优化 完成 。 
另 一 方面 ， 将 特定 的 优化 变换 应 用 到 程序 的 抽象 语法 树 可 能 会 带 来 另外 的 优化 机 会 ， 否 则 不 可 
能 发 现 这 些 机 会 。 例 如 , 将 过 程 体 回 代 到 过 程 的 调用 点 后 , 如 果 遇 到 编译 时 可 求 值 的 常量 参数 ， 
则 可 执行 常量 表达 式 求 值 和 消除 无 用 代码 等 优化 。 

本 书 大 部 分 关于 编译 程序 构造 的 练习 都 以 微型 计算 机 作为 目标 机 器 ， 这 些 计 算 机 缺少 丰富 
多 彩 的 指令 形式 支持 大 多 数 机 器 有 关 的 优化 变换 。 尽 管 如 此 ， 大 多 数 经 典 的 机 器 有 关 优化 算法 
仍 是 有 意义 的 。 
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构造 一 个 实用 的 编译 程序 时 ， 通 常 根据 文法 自动 地 构建 扫描 程序 和 分 析 程 序 ， 属 性 文法 的 
最 新 研究 进展 也 开始 为 约束 程序 带 来 自动 化 ， 但 代码 生成 和 优化 仍 需 花费 大 量 的 手工 编程 功 
夫 。 相 应 地 ， 构 造 一 个 完整 编译 程序 的 开销 大 部 分 集中 在 代码 生成 和 优化 阶段 ， 以 及 约束 程序 
(取决 于 该 阶段 未 自动 化 的 程度 )。 如 果 一 个 编译 程序 只 有 很 少 或 甚至 没有 优化 功能 ,或 者 一 门 
语言 仅 有 为 数 不 多 的 约束 需求 ， 那 么 这 样 的 编译 程序 和 语言 更 容易 实现 ， 因 而 在 市 场 上 往往 更 
有 优势 。 一 个 新 编译 程序 的 实现 人 员 可 能 期 望 在 约束 程序 上 花费 的 精力 与 在 扫描 程序 和 分 析 程 
序 加 在 一 起 上 所 花费 的 精力 一 样 多 。 一 个 类 似 于 本 书 编译 程序 练习 的 简单 代码 生成 程序 并 不 会 
比 一 个 约束 程序 更 难 , 但 一 个 合理 的 优化 程序 所 需 花费 的 精力 往往 多 于 编译 程序 所 有 其 他 部 分 
加 在 一 起 所 需 花 费 的 精力 。 





Tj 
一 ”在 文法 重 写 规 则 中 读 作 “ 重 写 为 ” prin: 
vowel — — "a" | "e" | "i" | "o" | "y" 


表示 一 个 名 为 vowel 的 语法 形式 可 重 写 为 字母 a、e、i、o 或 u 之 一 。 
1 ， 在 文法 重 写 规则 中 读 作 “或 ” 表示 重 写 的 有 两 个 选项 。 
um WA “o” EBNF 中 的 等 价 形式 。 
<> BNF 中 用 于 标识 一 个 语法 名 字 的 符号 ， 以 区 别 语言 中 的 单词 。 例 如 : 
«vowel» := a |elilo lu 


本 书 将 单词 用 引号 括 起 来 ， 而 用 普通 标识 符 作 为 语法 名 字 ， 因 为 这 样 更 一 致 并 更 易于 自动 化 。 


AST Abstract Syntax Tree， 抽 象 语法 树 ， 是 分 析 程 序 的 隐 含 输出 。 

BNF Backus-Naur Form 或 Backus Normal Form， 巴 克 斯 范式 ， 是 一 种 书写 文法 的 形式 。 
HLL Higher-Level Language， 高 级 语言 ， 例 如 FORTRAN 和 Modula-2 语言 。 

LL 从 左 到 右 扫描 ， 展 开 最 左 的 非 终结 符 ， 是 一 种 简单 的 分 析 策 略 。 

LR 从 左 到 右 扫描 ， 逆 序 展开 最 右 的 非 终结 符 ， 是 一 种 更 强大 的 分 析 策 略 。 


code generator (代码 生成 程序 ) ”基于 编译 前 端 产生 的 信息 (最 常见 的 是 单独 的 语义 动作 或 一 个 抽象 语 
法 树 ) 为 目标 机 器 产生 代码 的 编译 过 程 。 
compiler (编译 程序 ) ”是 一 个 将 输入 源 程序 (通常 是 一 个 文本 文件 ) 翻译 为 输出 目标 程序 (通常 是 某 
种 机 器 语言 的 “目标 模块 ”) 的 程序 。 
back end (aim) ”生成 目标 机 器 的 代码 。 后 端的 组 成 部 分 包括 代码 生成 程序 ， 以 及 可 有 可 无 的 一 
个 或 多 个 优化 程序 。 
front end (Rim) ”识别 合法 的 输入 程序 文件 ， 并 分 析 其 结构 。 前 端 由 一 个 扫描 程序 、 一 个 分 析 程 
序 以 及 一 个 约束 程序 组 成 。 
constrainer 约束 程序 ) ”编译 程序 中 一 个 过 程 ， 负 责 在 源 程 序 中 强加 关于 类 型 与 声明 的 规则 。 
grammar (X) ”书写 语言 中 合法 句子 的 一 系列 规则 。 
lexical (词汇 文法 ) ”定义 一 门 计算 机 语言 中 单词 的 正确 形式 。 
phrase structure (短语 结构 文法 ) ”定义 一 门 计 算 机 语言 中 的 单词 如 何 组 装 在 一 起 ， 形 成 一 个 语法 
正确 的 程序 。 
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HLL 《高 级 语言 (Higher-Level Language) 的 缩写 ) ”其 表示 法 比 目 标 机 器 语言 更 接近 于 待 求 解 的 问题 。 
input program (输入 程序 ) ”一 个 文本 文件 或 字符 流 。 
interpreter (解释 程序 ) ”一 个 执行 输入 源 程序 的 程序 ， 不 会 将 它 翻译 为 任何 特定 的 机 器 语言 输出 。 
lexeme CGIAR)  ” 指 源 程序 语言 中 的 一 个 单词 或 字 ， 由 一 个 字符 或 一 个 字符 序列 组 成 。 
lexical analysis〈 词 法 分 析 ) ”负责 识别 并 标识 一 门 语言 中 词素 ( 即 一 个 字 )〉 的 扫描 程序 动作 。 
parser (STF) ”是 编译 程序 的 一 部 分 ， 根 据 一 门 计算 机 语言 的 短语 结构 分 析 该 语言 中 的 一 个 句子 
(程序 )。 
parsing (CEA) 分 析 ) ”分 析 程 序 执行 的 动作 ， 识 别 一 个 输入 程序 的 短语 结构 或 语法 。 
bottom-up (AEM LST) ”构造 一 棵 抽象 语法 树 时 ， 从 叶 结 点 的 单词 出 发 ， 逐 一 建立 抽象 语法 树 
分 枝 ， 直 至 到 达 根 结 点 。LR 是 一 种 自 底 向 上 的 分 析 策 略 。 
LLOL 分 析 ) ” 意 即 从 左 到 右 扫 描 一 个 输入 串 , 基于 最 左 的 非 终结 符 判 断 选 用 哪 一 个 文法 产生 式 ( 称 
为 最 左 推导 )。 
LR CR 分 析 ) ” 意 即 从 左 到 右 扫描 一 个 输入 流 ， 展 开 最 右 的 非 终 结 符 ， 其 逆序 是 一 个 最 右 推导 。 
top-down (AMBP RH) ”构造 一 棵 抽象 语法 树 时 ， 从 顶部 的 根 结 点 出 发 向 下 构建 ， 直 至 到 达 单 
词 叶 结 点 。LL 是 一 种 自 顶 向 下 的 分 析 策 略 。 
scanner《〈 扫 描 程 序 ) ”是 从 作为 输入 源 程序 文本 的 字符 串 中 识别 合法 单词 的 编译 程序 过 程 。 
string table〈 字 符 串 表 ) ”扫描 程序 使 用 该 数据 结构 存放 标识 符 和 字符 串 常 量 的 拼写 。 
symbol table 〈 符 号 表 ) ”约束 程序 使 用 该 数据 结构 存放 源 程序 文本 中 标识 符 的 语义 信息 。 
token (单词) ”由 扫描 程序 识别 的 单个 原子 符号 。 一 个 单词 可 以 是 一 个 数字 ， 或 一 个 字符 串 常 量 ， 或 诸 
如 “; ”等 标点 符号 ， 或 诸如 “IF ”等 保留 字 (或 关键 字 )， 或 诸如 “:=” 等 多 个 字符 的 符号 ， 或 标 
识 符 〈 例 如 过 程 、 变 量 或 常量 的 名 字 )。 
translator 翻译 程序 ) ”一 个 将 源 程序 文本 翻译 为 目标 〈 机 器 ) 语言 的 程序 。 
assembler (汇编 程序 ) “将 低级 的 符号 化 代码 翻译 为 机 器 代码 。 
compiler 〈 编 译 程序 ) “将 高 级 语言 的 源 程 序 翻译 为 以 后 再 执行 的 目标 机 器 代码 。 
interpreter (解释 程序 ) ”立即 执行 源 程 序 文本 ， 不 会 将 源 程 序 文 本 翻译 为 任何 机 器 代码 。 
tee (R) ”一 个 层次 化 的 数据 结构 (一 个 有 向 无 环 图 ， 且 根 结 点 到 任何 其 他 结 点 仅 有 一 条 路 径 )。 
AST【 抽 象 语法 树 (Abstract Syntax Tree) 的 缩写 ) ”抽象 语法 树 由 分 析 程 序 构造 ， 其 中 的 内 部 结 
点 表示 非 终 结 符 ， 叶 结 点 表示 单词 。 


1， 列 出 本 章 英语 语言 的 小 文法 所 产生 的 全 部 句子 ， 并 展示 如 何 从 初始 字 “sentence” 推 导出 各 个 句子 。 
2， 修 改 该 英语 语言 的 文法 ， 使 得 一 个 专 有 名 词 不 可 同时 出 现在 动词 的 两 边 。 


复习 小 测验 


指出 下 列 陈述 是 否 正确 : 

1. 扫描 程序 执行 词法 分 析 。 

. 汇编 语言 是 一 种 高 级 语言 。 

分 析 程 序 先 构 造 一 个 字符 串 表 ， 然 后 再 用 它 构造 一 个 抽象 语法 树 。 
.分 析 程 序 识 别 一 个 输入 流 的 短语 结构 。 

解释 程序 是 一 种 运行 较 慢 的 编译 程序 。 

. 属性 文法 定义 了 如 何 使 用 符号 表 。 
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编译 程序 实验 项 目 


1. 列 出 Modula-2 子 集 Itty Bitty Modula 语言 中 所 有 可 能 的 单词 ; 列 单词 时 仅 限 于 IF 和 WHILE 控制 结 
构 以 及 整数 和 布尔 类 型 操作 ， 不 必 考 虑 集合 、 常 量 标识 符 或 独立 的 模块 。 注 意 ， 你 应 假定 所 有 标识 符 
表示 为 单个 通用 的 “identifier” 单 词 ， 必 要 时 请 参阅 附录 A 中 Itty Bitty Modula 语言 的 语法 图 。 

2. 列 出 组 成 上 表 中 全 部 单词 所 需 的 ASCH 字符 。 

3. 思索 Itty Bitty Modula 语言 的 编译 程序 应 强加 哪些 关于 标识 符 和 表达 式 的 约束 。 注 意 单词 次 序 和 短语 
结构 是 分 析 程 序 处 理 的 语法 问题 ， 而 不 是 约束 程序 处 理 的 语义 问题 。 
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第 2 章 文法 : TASER 


ARSE: 

e 理解 文 法 的 结构 

。 综述 乔 姆 斯 基层 次 

e 区 分 上 下 文敏 感 文法 、 上 下 文 无 关 文 法 和 正则 文法 
e. 研究 分 析 树 的 结构 

e 揭示 文法 及 其 机 只 之 间 的 关系 

© 介绍 规范 推导 

。 揭示 有 穷 状 态 自 动机 的 局 限 性 

。 研究 文法 中 的 计数 方法 

e 文法 思维 艺术 的 实践 


2.1 简介 


本 章 将 揭示 本 书 的 核心 主题 : 文法。 由 于 编译 程序 前 端 在 很 大 程度 上 可 根据 定义 一 门 语言 
的 文法 自动 地 构造 ， 所 以 将 我 们 对 这 些 内 容 的 理解 建立 在 严格 数学 理论 的 基础 上 显得 至 关 重 
要 。 文 法 有 一 个 特征 与 它 所 产生 语言 的 复杂 性 有 关 。 根 据 Noam Chomsky 〈 诺 姆 。 乔 姆 斯 基 ) 
对 自然 语言 的 研究 ， 可 找 出 四 个 级 别 的 语言 复杂 性 ， 通 常 称 之 为 乔 姆 斯 基层 次 。 每 一 语言 级 别 
均 由 一 类 自动 机 标识 ， 这 类 自动 机 可 识别 该 层次 中 任 一 语言 的 串 。 我 们 对 乔 姆 斯 基层 次 中 两 个 
较 高 的 〈 更 严格 的 ) 级 别 特别 感 兴趣 :正则 语言 和 上 下 文 无 关 语 言 ， 因 为 可 从 这 两 类 语言 的 文 
法 自动 地 构造 高 效 的 扫描 程序 和 分 析 程 序 。 

2.2 文法 

文法 在 数学 上 定义 为 一 个 四 元 组 ， 即 它 由 四 个 不 同 的 部 分 组 成 : 字母 表 、 非 终结 符 、 产 生 
式 以 及 一 个 目标 符号 。 它 们 在 本 书 中 分 别 采 用 符号 、N、P 和 S 表示 ， 再 用 圆 括号 括 住 并 用 去 
号 分 隔 : 

C2, N, P, S) 

前 三 个 符号 均 表 示 集 合 ， 第 四 个 符号 指定 第 二 个 集合 中 的 一 个 特定 元 素 。 因 而 ， 一 个 文法 
由 三 个 数学 上 的 集合 以 及 其 中 一 个 集合 中 的 某 个 特定 元 素 组 成 。 

2.2.1 字母 表 与 串 

第 一 个 集合 是 字母 表 ， 即 终结 符 的 集合 ， 是 一 个 由 可 用 于 形成 语言 中 的 句子 的 所 有 输入 
字符 或 符号 组 成 的 有 穷 集 。 通 常 认为 英语 的 字母 表 是 从 A 到 Z 的 26 个 字母 ， 但 在 我 们 的 定义 
中 还 须 包 括 标 点 符号 以 及 字母 之 间 的 空格 ， 因 为 它们 都 是 正确 英语 句子 的 重要 组 成 部 分 。 

大 多 数 程序 设计 语言 都 被 编码 为 文本 字符 组 成 的 串 ， 因 而 它们 的 字母 表 就 是 文本 字符 的 集 
合 , 通 常 是 定义 明确 的 某 一 计算 机 集合 , 例如 ASCII( 读 作 ask-key, 表示 American Standard Code 
for Information Interchange， 意 即 美国 信息 交换 标准 编码 )。 

通常 采用 两 个 文法 定义 一 个 编译 程序 。 扫描 程序 文法 的 字母 表 是 ASCII 或 ASCII 的 某 一 子 
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集 ; 而 分 析 程 序 文法 的 字母 表 则 是 由 扫描 程序 生成 的 单词 组 成 的 集合 ， 完 全 不 是 ASCII。 我 们 
抽出 或 删除 标识 符 单 词 的 各 个 拼写 ， 即 扫描 程序 每 次 识别 并 报告 的 标识 符 是 一 个 通用 的 
“identifier” 单 词 ， 因 而 单词 的 集合 仍 是 有 穷 的 ， 实 际 上 它 往往 比 扫描 程序 的 字母 表 更 小 。 

本 书 的 许多 例子 和 练习 重点 关注 文法 的 具体 方面 ， 因 而 我 们 经 常 使 用 非常 有 限 的 字母 表 ， 
这 些 字母 表 仅 由 罗马 字母 中 的 前 几 个 小 写字 母 组 成 ， 并 且 显 式 地 定义 ， 例 如 { a, b, c,d }。 在 一 
门 真 实 语言 的 文法 中 ， 我 们 通常 将 字母 表 表 示 为 一 个 个 像 字符 常量 一 样 用 引号 括 住 的 字符 ， 例 
如 实数 常量 的 字母 表 为 ; 

(4, '-,'",'E)'0', ..., '9'} 

字母 表 中 的 终结 符 可 根据 文法 规则 组 装 成 任意 长 度 的 串 。 术 语 “ 串 ”用 于 表示 按 任 一 明确 
次 序 排列 的 0 个 或 多 个 终结 符 组 成 的 序列 。 尽 管 我 们 不 考虑 无 穷 的 串 ， 一 个 串 却 可 以 是 任意 长 
的 ， 因 而 任 一 给 定 的 《有 穷 ) 字母 表 ， 均 有 无 穷 数 目的 可 能 的 串 。 一 个 文法 可 定义 某 一 特定 的 
仅 包 含有 穷 数 目的 串 (甚至 可 能 仅 有 一 个 串 ) 的 语言 , 但 值得 关注 的 程序 设计 语言 都 是 无 穷 的 ， 
至 少 在 实践 中 如 此 。 

令 = {a,b,c,d}， 考 虑 一 个 关于 串 的 例子 。E 中 终结 符 的 可 能 串 包括 aaa. aabbccdd. d. 
cba、abab、ccccccccccaccccc 等 。 空 串通 常 记 为 E。z 的 所 有 可 能 的 串 组 成 的 集合 ， fudit" He, 
WAL* GERE sigma star)。z2z# 称 为 字母 表 的 闭 包 ， 表 示 由 字母 表 中 符号 组 成 的 任意 串 ， 包 括 空 
串 。 这 个 星 号 称 为 克 林 星 号 ， 因 逻辑 学 家 Stephen Cole Kleene ( #93} «RIK * HH) 而 命名 。 
本 书 在 多 个 不 同 的 上 下 文中 使 用 了 克 林 星 号 ， 表 示 0 个 或 多 个 所 讨论 的 对 象 。 在 这 里 ， 它 表示 
“FERRER H 0 个 或 多 个 终结 符 组 成 的 串 ” 一 门 语言 是 Ex 的 菜 一 指定 的 子 集 。 

2.2.2 ” 非 终 结 符 与 产生 式 

组 成 一 个 文法 的 数学 定义 的 第 二 个 集合 是 关于 非 终结 符 的 集合 ,在 四 元 组 中 用 N 表示 ,这 
是 一 个 由 不 属于 字母 表 的 符号 组 成 的 有 穷 集 。 非 终结 符 并 不 是 串 的 集合 ， 它 只 是 一 些 符号 ， 可 
看 作 表 示 或 代表 一 个 # 子 集 的 串 集合 。 有 一 个 特殊 的 非 终结 符 称 为 目标 符号 ， 它 恰好 表示 语言 
中 所 有 的 串 。 非 终结 符 亦 称 语法 范畴 或 文法 变量 。 在 本 书 的 例子 和 练习 中 ， 通 常 使 用 罗马 字母 
中 的 前 几 个 大 写字 母 表示 非 终 结 符 ， 以 A〈 有 时 以 S) 表示 目标 符号 。 在 真实 程序 设计 语言 的 
文法 中 ， 更 喜欢 用 一 个 暗示 了 非 终结 符 含义 的 标识 符 作 为 非 终 结 符 的 符号 。 终 结 符 与 非 终结 符 
合 在 一 起 的 集合 ， 称 为 文法 的 词汇 表 。 

一 个 文法 的 产生 式 〈 上 述 四 元 组 中 的 PO. 是 一 个 重 写 规则 的 集合 ， 每 一 规则 均 写 成 由 一 个 
箭头 分 隔 的 两 个 符号 串 。 箭 头 左右 的 符号 均 可 从 终结 符 或 非 终 结 符 中 抽取 ， 并 受到 文法 形式 方 
面 的 某 些 限制 。 越 简单 的 语言 可 由 越 简单 〈 即 受到 越 多 限制 ) 的 文法 描述 。 从 定义 语言 的 产生 
式 的 形式 看 ， 越 复杂 的 语言 要 求 有 越 少 的 限制 。 

2.2.3 ”若干 文法 例子 

考虑 一 个 非常 简单 的 语言 ， 它 可 由 所 有 可 能 的 文法 中 最 简单 的 文法 定义 ， 该 文法 的 形式 受 
到 最 严格 的 限制 。 以 下 是 一 个 完整 的 文法 ， 它 定义 了 包含 字母 a、b 和 ce 中 两 个 字母 (可 能 是 
相同 的 字母 ) 以 任意 次 序 组 成 的 所 有 串 : 

Gı=( {a,b,c}, {A,B}, (AS aB, A > bB, AS cB, B >a,B > b,B >c }, A) 

该 文法 中 ， 字 母 表 2 是 小 号 字母 的 集合 { a, b,c }， 非 终结 符 是 大 写字 母 的 集合 { A, B }， 其 

中 字母 A 是 目标 符号 ; 产生 式 的 集合 是 如 下 列表 : 
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A—>aB Ba 
A-bB Bob 
A— cB Boc 


非 终结 符 A 表示 “语言 中 的 所 有 串 ” 非 终结 符 B 表示 “由 一 个 符号 组 成 的 所 有 串 ”。 从 
目标 符号 A 出 发 ， 可 应 用 产生 式 规 则 重 写 它 〈 或 其 中 的 一 部 分 )， 直 至 到 达 一 个 终结 符 组 成 的 
串 。 我 们 总 是 从 目标 符号 出 发 ， 上 述 文法 中 即 是 A〈 目 标 符号 通常 也 称 为 起 始 符号 ， 因 为 我 们 
从 这 一 符号 开始 )， 

A 

前 三 条 规则 《〈 即 产生 式 ) 中 的 任 一 条 都 可 应 用 于 这 一 初始 串 ， 我 们 随意 挑选 了 第 二 条 ， 将 
A 替换 为 bB: 

bB 

只 要 有 可 能 ， 我 们 就 继续 应 用 规则 。 由 于 不 再 有 A 可 以 重 写 ， 前 三 条 规则 不 可 以 再 应 用 ; 
但 后 三 条 规则 中 的 任 一 条 都 可 以 ， 因 为 其 中 的 任 一 条 规则 都 可 替换 待 处 理 串 中 的 B。 我 们 又 随 
意 挑选 了 最 后 一 条 规则 并 重 写 上 述 串 : 

bc 

此 时 串 中 仅 含 终结 符 ， 不 再 有 非 终 结 符 ， 因 而 重 写 过 程 终止。 

.这 一 系列 的 步骤 称 为 推导 ， 其 结果 是 推导 出 该 语言 中 的 一 个 串 。 上 述 推导 还 可 写成 如 下 的 
单行 形式 ， 

A>bB>bDc 

双 箭 头 读 作 “推导 ” 表示 推导 中 的 一 个 步骤 。 因 而 ，A 推导 出 串 BB，bB 再 推导 出 终结 符 
8 pc。 只 要 待 处 理 的 串 中 仍 有 非 终结 符 ， 推 导 过 程 就 不 会 终止 ， 如 果 只 剩 下 终结 符 ， 则 终止 重 
写 规则 的 应 用 。 这 也 正 是 这 些 符 号 被 分 别称 为 “ 非 终结 符 ” 和 “终结 符 ” 的 原因 。 在 推导 过 程 中 
的 任 一 步 ， 均 可 选择 其 左 部 在 串 中 某 处 出 现 的 任 一 规则 ， 并 使 用 相同 规则 的 右 部 替换 这 一 左 部 。 

有 时 使 用 克 林 星 号 作为 推导 的 简写 会 更 方便 : 

A>*be 

带 星 号 的 双 箭 头 表示 非 终结 符 A 可 用 0 个 或 多 个 推导 步骤 推导 出 串 bc. 

选择 不 同 的 产生 式 可 推导 出 该 语言 中 的 另 一 个 串 ; 
A>aB>aa 

一 路 作出 不 同 的 选择 ， 容 易 看 出 该 文法 可 产生 的 全 部 串 是 9 个 双 字 母 的 串 ， 它 就 是 我 们 定 
义 的 语言 。 文 法 G 是 用 于 定义 扫描 程序 这 类 文法 的 一 个 例子 ， 尽 管 这 里 的 语言 是 有 穷 的 ， 而 
大 多 数 扫描 程序 文法 定义 的 语言 是 无 穷 的 。 

另 一 个 例子 是 文法 G={LN P,E }， 其 中 字母 表 5 是 集合 { n, +,*, ), ( }; N 是 非 终结 符 的 
集合 { E, T,F }; P 是 如 下 产生 式 的 集合 (添加 了 编号 ， 以 便于 稍 后 引用 ): 


D.1 E— E+T 
D.2 ET 
D.3 ToT*F 
D.4 TF 


D.5 F>(E) 
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D.6 Fon 
第 一 条 产生 式 的 左 部 是 单个 非 终结 符 E， 其 右 部 是 一 个 由 终结 符 “+” 分 隔 的 两 个 非 终结 
符 E 和 了 组 成 的 串 。 该 产生 式 的 含义 是 ， 每 当 该 文法 用 于 生成 它 所 定义 的 语言 中 的 一 个 串 时 ， 
只 要 待 处 理 的 串 中 出 现 了 非 终结 符 E， 该 非 终结 符 就 可 被 重 写 为 时 “E + T”， 而 待 处 理 串 的 其 
余部 分 保持 不 变 。 从 目标 符号 EE 出 发 ， 可 应 用 第 一 条 产生 式 将 它 重 写 为 “E + T”， 然 后 继续 应 
用 该 产生 式 重 写 待 处 理 串 左 端的 E， 形 成 一 个 新 的 待 处 理 串 “BE +T+T” 如 此 类 推 。 


E-E«T2E-«T«T-.. 

使 用 文法 Gs 可 从 目标 符号 EE 推导 出 串 n+n*n， 如 下 所 示 : 
E 目标 符号 
E+T 应 用 规则 D.1 
E+T*F 应 用 规则 D.3 
T+T*F 应 用 规则 D.2 
F+T*F 对 最 左 的 T 应 用 规则 D.4 
F+F*F 再 次 应 用 规则 D.4 
F+F*n 对 最 右 的 应 用 规则 D.6 
Fin*n 再 次 对 最 右 的 F 应 用 规则 D.6 
n+n*n 又 一 次 应 用 规则 D.6 


我 们 也 可 将 上 述 过 程 画 成 一 棵 树 ， 称 为 推导 树 、 分 析 树 或 抽象 语法 树 ， 如 图 2-1a 所 示 。 以 

下 写法 : 

E>*n+n*¥n 
PAAR EBA 0 个 或 多 个 步骤 推导 出 串 n+n*n。 上 述 推导 有 9 行 ， 其 中 的 每 一 行 均 称 
为 该 语言 的 一 个 句 型， 最 后 一 行 称 为 该 语言 中 的 一 个 句子 。 语言 中 的 一 个 句子 是 2#* 中 可 从 目标 
符号 经 过 一 步 或 多 步 推 导出 的 任 一 串 ， 一 个 句 型 m 是 (5 U N) * 中 〔( 即 包含 任意 数目 的 终结 符 
和 非 终结 符 ) 满足 以 下 关系 的 任 一 串 : 

S>*oa>*o 
其 中 ，S 是 目标 符号 ， 而 g 是 2# 中 的 一 个 句子 。 换 而 言 之 ， 一 个 句 型 是 由 终结 符 与 非 终结 符 组 
成 的 任 一 串 ， 它 可 从 有 目标 符号 推导 出 ， 并 且 可 继续 推导 出 语言 中 的 一 个 多 子 。 一 个 句子 的 分 析 
树 上 的 任何 前 枝 都 是 一 个 句 型 , 只 要 该 剪 枝 没 有 绕 过 下 面 的 任何 终结 符 。 图 2-1b 展示 了 一 个 剪 
枝 的 例子 , 它 标 明了 名 型 “F+F*F”。 注意 , 图 中 的 灰色 线条 如 果 不 是 向 上 弯曲 到 终结 符 “+”， 
而 是 从 它 下 面 绕 过 ， 那 么 这 就 不 是 一 个 正确 的 剪 枝 ， 在 该 语言 中 ,“F R* F” 并 不 是 一 个 句 型 。 








E le 
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图 2-1 推导 EB = 二 *n+n*n 的 分 析 树 ， 图 b 中 的 灰色 线条 表示 一 个 剪 枝 ， 展 示 了 名 型 F+F* F 
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机 灵 的 读者 会 注意 到 ， 当 该 文法 有 多 种 选择 时 ， 应 用 产生 式 的 次 序 不 会 带 来 任何 差别 。 例 如 

在 n+n*n 的 推导 中 ， 第 二 步 可 对 非 终 结 符 T 应 用 规则 D.3， 也 可 对 非 终结 符 E 应 用 规则 D.2: 
E>E+T>E+T*F>.. 应 用 规则 D.3 
ESE+T>T+T>.. 应 用 规则 D.2 

不 论 采 用 何 种 次 序 ， 为 推导 出 同一 个 的 终结 符 串 ， 最 终 都 会 应 用 了 全 部 相同 的 产生 式 。 但 
指定 次 序 时 具有 很 大 的 自由 度 ， 这 正 是 无 二 义 的 上 下 文 无 关 文法 的 一 个 特点 ， 本 书 稍 后 将 深入 
讨论 。 

按 从 左 到 右 次 序 阅读 分 析 树 的 叶 结 点 《分 枝 的 顶 梢 )， 即 形成 该 树 所 分 析 的 句子 ， 也 称 为 
其 边缘 。 如 果 可 为 同一 句子 构造 出 两 棵 不 同 的 分 析 树 ， 则 称 该 文法 是 二 义 的 。 

上 述 两 个 文法 例子 中 ， 每 一 产生 式 的 左 端 恰好 只 有 一 个 非 终结 符 ， 这 一 形式 是 用 于 构造 编 
译 程序 的 文法 所 特有 的 。 然 而 还 存在 一 类 重要 的 文法 不 受 此 限制 。 第 三 个 文法 例子 生成 所 有 由 
相同 数目 a、b 和 cc 组 成 的 、 且 按 字母 次 序 排列 的 非 空 串 : 

G;=({a,b,c},{ A,B,C}, P,A) 
其 中 ，P 是 如 下 产生 式 集合 : 

A—aABC CB— BC 

A 一 4BC 

bC> be aBab 

cCocc bB—bb 

DAF HES HT AE RRR aabbcc: 

A 

aABC 

aaBCBC 

aaBBCC 

aabBCC 

aabbCC 

aabbcC 

aabbcc | 

注意 ， 该 文法 通过 重 写 符号 串 〈 例 如 产生 式 aB ab 保证 了 生成 的 串 符合 字母 次 序 ， 尽 
管 推导 中 有 一 步 没 有 按 字母 次 序 排列 。 


2.3 FEE KR 


上 世纪 50 年 代 中 期 ， 语 言 学 家 庶 姆 。 乔 姆 斯 基 定义 了 四 个 级 别 的 文法 ， 希 望 由 此 分 析 人 
类 的 自然 语言 。 从 自然 语言 的 研究 上 看 他 并 未 成 功 ， 但 “ 乔 姆 斯 基层 次 ” 却 很 适合 作为 描述 用 
于 计算 机 程序 设计 的 人 工 语言 的 形式 化 基础 。 

乔 姆 斯 基 定 义 了 四 个 级 别 的 语言 复杂 性 ， 并 将 它们 分 别 编号 为 0 到 3 在 计算 机 专业 人 士 
的 优良 传统 中 ， 编 号 方案 总 是 从 0 开始 )， 此 外 还 定义 了 四 类 文法 ， 生 成 各 自 级 别 的 语言 。 随 
后 的 语言 学 研究 找 出 了 四 类 对 应 的 自动 机 ， 即 抽象 机 器 类 型 ， 它 们 恰好 可 识别 相应 文法 所 生成 
的 语言 中 的 串 。 表 2-1 给 出 了 这 四 个 级 别 。 
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R21 语言 和 自动 机 的 乔 姆 斯 基层 次 


上 下 文敏 感 文法 
无 限制 文法 












乔 姆 斯 基 语 言 类 







下 推 自动 机 
线性 有 界 自动 机 








24 文法 及 其 机 器 


一 个 自动 机 的 组 成 包括 :一 种 控制 机 制 ， 其 中 带 有 有 穷 数 目的 状态 ， 一 条 某 种 形式 的 带 ， 
类 似 磁带 播放 机 那样 可 读 入 和 向 前 进 ， 也 可 能 可 写 入 (记录 ) 或 双向 移动 。 一 个 有 穷 的 字母 表 
定义 了 带 上 可 能 出 现 的 符号 ,与 一 门 语言 的 定义 中 的 字母 表 相同 。 带 上 的 初始 内 容 是 由 字母 表 
中 的 字符 组 成 的 串 ， 即 自动 机 的 输入 。 从 一 个 指定 的 起 始 状态 出 发 ， 自 动机 基于 带 上 找到 的 内 
容 以 及 控制 机 制 中 的 规则 ， 依 次 经 过 它 的 各 个 状态 ， 这 些 步 又 称 为 变迁 。 任 何 时 候 自动 机 都 可 
能 停机 ， 并 且 这 表明 自动 机 接受 了 该 输入 串 ， 自 动机 也 可 能 阻塞 ， 即 进入 一 个 无 任何 规则 可 处 
理 当前 带 上 输入 的 状态 ， 出 现 了 阻塞 情况 即 表 明 自 动机 拒绝 该 输入 串 。 不 同类 的 自动 机 主要 通 
过 它们 的 带 的 类 别 加 以 区 别 。 
2.4.1 图 灵机 

乔 姆 斯 基层 次 中 限制 最 少 的 语言 类 别 是 0 级 ， 称 为 无 限制 文法 ， 这 类 语言 由 各 类 自动 机 中 
最 通用 的 图 灵机 识别 。 如 图 2-2 所 示 , 图 灵机 (通常 简写 为 TM) 是 上 世纪 40 年 代 由 Alan Turing 
GE + ER) 设计 的 一 种 计算 装置 的 抽象 模型 ， 其 中 包含 一 个 可 在 一 条 无 穷 的 带 上 随处 定位 
的 读 写 头 。 图 灵机 的 状态 是 一 个 有 穷 集 ， 它 的 任何 状态 均 须 从 起 始 状 态 出 发 ， 并 且 经 过 一 系列 
变迁 规则 后 进入 这 些 状 态 。 





图 2-2 图 灵机 


对 于 单个 状态 和 读 写 头 下 的 单个 字母 表 字 符 ， 每 一 变迁 规则 指定 了 三 个 动作 :进入 的 下 一 
状态 、 写 回 带 上 的 一 个 新 字符 (也 可 能 是 同一 字符 )、 将 带 移动 一 个 字符 位 置 的 方向 。 读 写 带 
亦 可 留 在 原来 的 位 置 ， 并且 任 一 规则 也 可 指定 在 变迁 结束 后 停机 ， 表 明 图 灵机 接受 这 一 输入 作 
为 它 所 识别 的 语言 中 的 一 个 串 。 如 果 对 于 一 个 特定 的 状态 和 带 上 的 符号 没有 变迁 可 用 ， 图 灵机 
将 阻塞 并 拒绝 这 一 输入 串 。0 级 语言 亦 称 递归 可 枚 举 语言 ， 因 为 它 是 一 个 可 由 图 灵机 枚 举 ( 列 
举 ) 的 串 组 成 的 集合 。 | 

图 灵机 是 许多 可 计算 理论 与 计算 复杂 性 理论 的 重要 基础 ,但 作为 编译 程序 生产 环境 中 的 一 
个 实用 工具 却 是 极其 低 效 的 。 实 际 上 已 证 明 ， 对 于 任意 输入 带 ， 我 们 无 法 判断 一 个 图 灵机 是 否 
终止 《要 么 停机 ， 要 么 阻塞 ) 并 产生 结果 。 因 而 对 于 编译 程序 设计 而 言 ，0 级 语言 并 不 是 有 用 
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的 语言 类 ， 因 而 本 书 不 打算 花费 过 多 篇 幅 展开 讨论 。 此 处 提 及 图 灵机 ， 是 因为 识别 乔 姆 斯 基层 
次 中 各 语言 级 别 的 其 他 自动 机 均 是 图 灵机 的 变形 或 受 限 形式 。 
2.4.2 ”线性 有 界 自动 机 

乔 姆 斯 基层 次 中 的 1 级 语言 称 为 上 下 文敏 感 语言 。 上 下 文敏 感 语言 可 由 一 个 包含 一 条 有 穷 
读 写 带 的 自动 机 正确 地 识别 ， 这 类 自动 机 称 为 线性 有 界 自动 机 (简写 为 LBA)， 如 图 2-3 所 示 。 





2-3 ”线性 有 界 自动 机 


上 下 文敏 感 文法 有 两 个 限制 : 每 一 产生 式 的 左 部 必须 至 少 含有 一 个 非 终 结 符 ， 产生 式 右 部 
的 符号 不 可 少 于 左 部 ， 特 别 是 不 允许 有 空 产生 式 。 空 产生 式 形 如 N e£, MFEARRNERE— 
个 非 终结 符 ， 而 右 部 是 一 个 空 串 。 第 二 个 限制 有 一 个 例外 : 如 果 产 生 式 的 左 部 仅 由 目标 符号 组 
成 ， 且 有 目标 符号 不 出 现在 任何 其 他 产生 式 的 右 部 ， 那 么 右 部 允许 是 空 串 。 如 果 要 生成 语言 中 的 
空 串 ， 这 一 例外 是 必 不 可 少 的 。 文 法 Gs 是 一 个 上 下 文敏 感 文法 的 实例 。 实 际 上 文法 G M G 
在 形式 上 也 是 上 下 文敏 感 的 ， 但 它们 有 更 严格 的 限制 ， 我 们 通常 用 一 门 语言 所 属 的 最 高 乔 姆 斯 
基 级 别 〈 即 可 生成 该 语言 的 受 限 最 多 的 文法 ) 描述 该 语言 。 
2.4.3 下 推 自动 机 

乔 姆 斯 基层 次 中 的 2 级 语言 称 为 上 下 文 无 关 语 言 。 上 下 文 无 关 语言 可 由 下 推 自动 机 (简写 
X PDA) 正确 地 识别 ， 这 类 自动 机 只 能 读 入 其 输入 带 , 但 还 有 一 个 可 增长 到 任意 深度 的 栈 用 于 
存放 信息 ,如 图 2-4 所 示 。 一 个 包含 一 条 只 读 带 和 两 个 独立 栈 的 下 推 自动 机 等 价 于 一 个 图 灵机 。 





图 2-4 下 推 自 动机 


栈 是 一 种 仅 允 许 从 一 端 访问 的 线性 数据 结构 ， 就 像 忙 碌 的 行政 人 员 的 桌面 上 的 纸 堆 ,或 餐 
厅 中 的 自动 盘 碟 伺服 器 。 理 论 上 栈 可 增长 到 任意 深度 ,但 实际 上 我 们 通常 会 基于 计算 机 中 的 内 
存 大 小 将 栈 限 制 在 特定 的 大 小 。 栈 上 有 两 个 操作 : 压 入 和 弹出 ， 两 者 都 在 栈 顶 操作 ， 如 图 2-5 
所 示 。 压 入 操作 将 一 个 元 素 添 加 到 栈 项 ， 挡 住 原 有 的 栈 顶 元 素 ， 弹 出 操作 取 走 栈 顶 元 素 ， 露 出 
下 一 元 素 供 后 续 的 弹出 操作 访问 。 

下 推 自动 机 的 每 一 步 都 从 栈 中 弹出 一 个 符号 ， 然 后 可 立即 将 同一 符号 或 其 他 符号 压 回 栈 
中 ,或 者 也 可 不 压 入 任何 符号 。 下 推 自动 机 的 每 一 步 移动 有 可 能 读 入 其 输入 带 并 将 输入 带 向 前 
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移动 ， 也 可 能 停机 (并 接受 输入 )。 由 于 下 推 自动 机 根据 栈 顶 发 现 的 符号 以 及 读 磁头 下 的 符号 
决定 状态 的 变迁 ， 因 此 它 可 将 栈 作为 读 入 信息 的 临时 存储 场所 。 





25 ” 栈 如 何 工 作 ;， 图 2 将 三 个 盘子 压 入 盘子 的 栈 中 ， 图 4 弹出 一 个 盘子 


上 下 文 无 关 文法 比 上 下 文敏 感 文法 受 更 多 限制 ， 体 现在 每 一 产生 式 的 左 部 仅 允 许 出 现 单个 
非 终结 符 〈 不 允许 含有 终结 符 )。 本 书 大 量 使 用 了 “上 下 文 无 关 文法 ”这 一 术语 ， 因 而 将 它 简 
FA CFG 会 更 方便 。 文法 G 是 一 个 CFG 的 实例 。 与 上 下 文敏 感 文法 不 同 ,在 上 下 文 无 关 文 法 
中 可 放松 对 空 产生 式 的 要 求 ， 因 为 可 证 明 这 不 会 改变 语言 的 基本 能 力 。 带 空 产生 式 的 任 一 CFG 
可 转换 为 最 多 只 有 单个 空 产生 式 的 等 价 CFG, 这 符合 上 下 文敏 感 文法 对 空 产生 式 的 限制 。 本 书 
第 7 章 展示 了 如 何 从 一 大 类 上 下 文 无 关 文 法 自动 地 构造 确定 的 (线性 时 间 的 ) 下 推 自动 机 。 
”2.4.4 ”删除 空 产生 式 

利用 以 下 转换 ， 可 删除 上 下 文 无 关 文法 中 的 空 产 生 式 。 对 文法 中 的 每 一 空 产 生 式 : 

AE 

找 出 并 复制 所 有 A 出 现在 右 部 的 产生 式 ， 并 从 得 到 的 副本 中 删除 A。 然 后 ， 若 A 不 是 目标 符 
号 ， 则 删除 这 一 空 产生 式 ; BA 是 目标 符号 且 A 还 出 现在 某 一 产生 式 的 右 部 ， 则 选择 一 个 新 
的 非 终结 符 G 作为 目标 符号 ， 并 添加 两 条 产生 式 : 


G 一 人 
G 一 8 
接着 可 安全 地 删除 原来 的 空 产 生 式 。 
考虑 如 下 的 简单 文法 例子 : 
A 一 AdaB B— Ba 
AE Bore 
对 B 的 空 产生 式 应 用 第 一 步 后 ， 添 加 了 两 个 新 产生 式 : 
A-—Aa Ba 


再 将 第 一 步 应 用 到 A 的 空 产 生 式 ， 又 添加 了 两 个 新 产生 式 〈 其 中 一 个 来 自 原文 法 ， 另 一 个 来 自 
上 一 步 添加 的 新 产生 式 ): 
A-aB Aa 
然后 添加 一 个 新 的 目标 符号 G， 得 到 的 最 终 文法 是 一 个 没有 多 余 空 产生 式 的 正确 形式 : 
GA Got 


$ 
bo 
二 
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A AaB B-»Ba 
AAa Ba 
A—aB Aa 


2.4.5 ”比较 上 下 文 无 关 文 法 和 上 下 文敏 感 文法 

上 下 文 无 关 文 法 和 上 下 文敏 感 文法 的 主要 区 别 正 如 其 名 字 所 示 : 所 有 上 下 文 无 关 的 产生 式 
在 应 用 时 ， 不 必 考 虑 正 被 重 写 的 非 终结 符 附 近 的 上 下 文 〈 即 符号 );， 而 上 下 文敏 感 的 产生 式 则 
可 能 在 其 左 部 包含 任意 数目 的 上 下 文 符号 ， 因 而 可 编写 一 条 产生 式 重 组 某 一 句 型 中 的 符号 ， 正 
如 在 文法 Gy 中 将 车 于 b 和 c 按 字母 次 序 排序 。 上 下 文 无 关 的 产生 式 只 可 在 非 终结 符 的 原来 位 
SEH (在 某 些 扩 展 情况 下 是 收缩 ) 一 个 非 终 结 符 ， 因 而 上 下 文 无 关 文法 中 没有 产生 式 可 影响 
到 待 处 理 的 串 中 其 他 非 终 结 符 中 的 符号 ， 这 使 得 上 下 文敏 感 文法 比 上 下 文 无 关 文 法 更 强大 且 更 
难以 识别 。 

所 有 现代 程序 设计 语言 都 采用 上 下 文 无 关 文法 定义 ， 但 我 们 将 看 到 ， 其 中 的 大 多 数 在 其 语 
言 定义 中 都 嵌 有 上 下 文 的 敏感 性 。 这 种 敏感 性 的 一 个 例子 是 在 Pascal 和 Modula-2 等 语言 中 ， 
要 求 标识 符 在 使 用 前 必须 先 声 明 : 这 一 声明 的 存在 就 是 允许 该 标识 符 被 使 用 的 上 下 文 。 我 们 采 
纳 的 方案 是 经 过 精心 约束 的 上 下 文 无 关 文法 扩展 ， 而 不 是 揭 开 上 下 文敏 感性 的 潘 条 拉 之 盒 。 这 
些 扩展 称 为 属性 。 因 此 ， 我 们 希望 保留 上 下 文 无 关 文 法 带 来 的 线性 快速) 编译 时 间 的 所 有 好 
处 , 同时 又 不 丢弃 语言 的 特性 , 否则 这 些 语言 特性 看 起 来 似乎 要 求 使 用 更 低层 的 乔 姆 斯 基 级 别 。 
246 ”有 穷 状 态 自动 机 

乔 姆 斯 基层 次 中 最 高 和 受 限 制 最 多 的 级 别 是 第 3 级 的 正则 语言 《有 时 亦 称 正则 集 )， 可 由 
有 穷 状态 自动 机 (简称 FSA; 有 时 亦 称 有 穷 状态 机 ， 简 称 FSM) 识别 ， 如 图 2-6 所 示 。 有 穷 状 
态 自动 机 没有 无 穷 的 存储 ， 仅 允许 在 一 遍 中 一 次 读 入 其 输入 。 要 记 下 关于 输入 带 上 一 个 符号 的 
任何 上 下 文 信息 ， 就 必须 将 这 些 信息 保留 在 机 器 的 状态 中 。 因 为 它 是 有 穷 的 ， 因 而 机 器 状态 中 
可 存储 的 信息 量 是 有 穷 的 。 正 则 文法 是 文法 中 受 限制 最 多 的 ， 每 一 产生 式 的 左 部 仅 允许 有 一 个 
符号 〈 非 终结 符 )， 右 部 仅 允许 有 一 个 或 两 个 符号 ， 右 部 的 第 一 个 符号 必须 总 是 终结 符 ， 若 有 
第 二 个 符号 则 它 总 是 非 终 结 符 。 类 似 于 上 下 文敏 感 文法 和 严格 的 上 下 文 无 关 文法 ， 正 则 文法 也 
不 允许 空 产生 式 , 除非 左 部 是 目标 符号 的 单条 产生 式 , 且 目 标 符号 不 出 现在 任何 产生 式 的 右 部 。 





图 2-6 ”有 人 穷 状态 自动 机 


正如 上 下 文 无 关 文 法 ， 我 们 可 放松 此 规则 而 不 改变 语言 的 能 力 ; 但 因为 形式 严格 的 正则 文 
法 与 其 等 价 的 有 穷 状态 自动 机 关系 是 如 此 直接 ， 所 以 我 们 使 用 另 一 术语 表达 更 宽松 的 文法 : 右 
线性 文法 是 一 个 这 样 的 文法 ,文法 中 每 一 产生 式 的 左 部 恰好 有 一 个 非 终结 符 ， 其 右 部 有 0 个 或 
多 个 终结 符 ， 后 面 跟着 最 多 一 个 非 终 结 符 。 在 每 一 个 右 部 含 非 终结 符 的 产生 式 中 ， 该 非 终结 符 
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总 是 最 右 的 符号 ， 故 其 术语 为 右 线性 。 若 一 个 文法 具有 相同 形式 ， 但 右 部 的 
则 称 左 线性 。 本 书 第 3 章 展示 了 正则 文法 、 右 线性 文法 、 左 线性 文法 之 间 是 
如 何 从 它们 构造 等 价 的 有 穷 状 态 自动 机 。 
25 ” 空 串 与 空 语言 
考虑 不 同文 法 生成 的 语言 时 ， 很 重要 的 一 点 是 不 要 混淆 一 个 生成 空 串 e 作 为 其 语言 中 的 一 
个 串 的 文法 ， 与 一 个 定义 了 空 语言 的 文法 《〈 即 该 文法 根本 不 生成 任何 的 串 )。 文 法 G4 是 一 个 仅 
定义 了 一 个 串 《〈 即 空 串 ) 的 文法 : 
G.-((a, (AL {Ae}, A) 
文法 Gs 不 生成 任何 串 《〈 即 便 是 空 串 )， 
Gs=({a}, {A,B}, {A—B,B—>aA}, A) 
乍 看 起 来 ， 文 法 Gs 好像 生成 由 a 组 成 的 串 ， 但 每 一 个 半成品 的 串 都 包含 一 个 非 终 结 符 。 
这 一 过 程 永远 不 会 终止 ， 因 而 它 始 终 不 会 产生 一 个 终结 符 的 串 。 该 语言 是 空 的 ， 因 为 这 一 文法 
不 能 生成 任何 仅 有 0 个 或 多 个 终结 符 组 成 的 串 。 
越 是 没 那么 简单 的 文法 ， 越 容易 忽略 那些 不 能 产生 任何 串 的 产生 式 ， 例 如 文法 Ge: 
Ge =({ a,b,c}, {A,B,C}, P, A) 
其 中 ,，P 是 以 下 产生 式 的 集合 : 
A~BC 
A—aC 
B5B 
CocC 
Ca 
尽管 该 文法 有 一 条 产生 式 看 起 来 会 产生 由 4b ARKE, 然而 却 无 法 探 脱 该 产生 式 中 的 非 终 
结 符 B， 因 而 这 一 非 终 结 符 及 其 产生 式 都 是 无 用 的 。 该 文法 只 会 生成 两 端 各 有 一 个 a、 中 间 由 
< 组 成 的 串 。 第 一 条 产生 式 也 是 无 用 的 ， 因 为 它 永 远 不 会 应 用 在 一 个 句子 的 推导 过 程 。 


2.6 ”规范 推导 


前 面 介绍 了 推导 的 概念 ， 即 如 果 一 个 非 终 结 符 A 经 过 连续 地 应 用 产生 式 规则 后 ,转换 为 一 
个 由 终结 符 和 非 终结 符 组 成 的 串 @， 则 ~ 
称 A 推导 出 o， 记 为 A S* e. BUE 一 |- 
虑 文法 G, JUPE 是 目标 符号 ， 我 们 e - 
可 以 说 在 应 用 规则 D.1、D.2 和 D.3 各 
一 次 ， 再 应 用 规则 D.4 两 次 ， 以 及 再 应 
用 规则 D.6 三 次 之 后 ，E 推导 出 该 语言 F pe ' D6 
中 的 一 个 句子 n+n*n。 这 一 过 程 可 通 | | 
过 建立 一 棵 分 析 树 〈 又 称 推 导 树 ) 以 图 
形 方式 展示 ， 如 图 2-7 所 示 。 

由 于 这 是 一 种 二 维 图 形 表 示 ， 图 2-7 同时 给 出 了 产生 式 规则 的 全 部 8 次 应 用 ， 而 计算 机 通 


图 2-7 推导 出 文法 Gs 所 定义 语言 中 的 串 n+n*n 的 分 析 树 
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常 是 一 种 顺序 装置 ， 在 顺序 文件 上 操作 ， 因 而 这 种 图 形 表 示 除 直观 解说 之 外 就 显得 有 些 笨拙。 
然而 ， 我 们 可 通过 每 次 仅 应 用 一 条 规则 将 这 一 过 程 线性 化 ， 如 此 一 来 选择 先 应 用 哪 条 规则 就 有 
了 多 种 可 能 。 像 这 样 一 个 无 二 义 的 上 下 文 无 关 文 法 ， 对 最 终 推导 出 来 的 同一 个 串 而 言 ， 相 同 规 
则 的 应 用 次 序 对 产生 的 分 析 树 不 会 造成 任何 差别 。 

例如 考虑 图 2-8 所 示 的 两 种 策略 ， 一 种 称 为 最 左 推导 ， 因 为 它 总 是 对 一 个 句 型 中 最 左 的 非 
终结 符 应 用 规则 ; 另 一 种 称 为 最 右 推导 ， 因 为 它 总 是 对 最 右 的 非 终结 符 应 用 规则 。 这 两 种 策略 
均 推 导出 时 n+n*n， 并 且 都 构造 了 相同 的 分 析 树 。 只 有 以 某 一 次 序 应 用 这 些 相 同 的 规则 ， 并 
构造 这 一 相同 的 分 析 树 ， 文 法 Gs 才 可 能 推导 出 这 个 串 。 





E E 


E+T D.t E+T D.1 
T+T D.2 E+T*F D.3 
F+T D.4 E+T*n D.6 
n+T D.6 E+F*n D.4 
n+T*F D.3 E+n*n D.6 
n+F*F D.4 T+n*n D.2 
n+n*F D.6 F+n*n D.4 
n+n*n D.6 n+n*n D.6 
a) b) 


图 2-8 SEG, PH n+n*n 的 最 左 规范 推导 (图 a) 和 最 右 规范 推导 (图 b) 


然而 ， 应 用 规则 的 次 序 对 于 从 目标 符号 E 推导 出 句子 n+n*n 的 句 型 序列 却 是 有 意义 的 。 
图 2-8 中 的 两 种 推导 称 为 规范 推导 , 因为 它们 形成 了 两 类 分 析 程 序 构造 方法 的 基础 或 规则 (“ 规 
则 ”的 拉丁 文 单词 是 canon)。 在 手工 编写 的 编译 程序 中 ， 最 左 推导 更 容易 实现 。 当 从 左 到 右 读 
入 一 个 输入 串 并 采用 最 左 推导 时 ， 从 目标 符号 卫 开 始 自 顶 向 下 构造 分 析 树 ;这 样 的 编译 程序 称 
为 自 顶 向 下 编译 程序 或 LL(k) 编 译 程序 。 

最 右 推导 可 处 理 上 下 文 无 关 文 法 的 一 个 更 大 的 、 限 制 更 少 的 子 集 。 当 从 左 到 右 读 入 一 个 输 
入 串 并 采用 逆序 的 最 右 推导 时 ， 从 甸子 n+n*n 开始 自 底 向 上 构造 分 析 树 ; 这 样 的 编译 程序 称 
为 自 底 向 上 编译 程序 或 LR(A) 编 译 程序 。 尽 管 第 7 章 讨论 了 自 顶 向 下 分 析 程 序 和 自 底 向 上 分 析 
程序 的 一 些 实现 差异 ， 本 书 大 部 分 重点 还 是 关注 自 顶 向 下 分 析 程 序 。 大 多 数 分 析 程 序 自动 生成 
工具 是 自 底 向 上 的 ， 因 为 LL( 提 文法 基本 上 比 任何 自 底 向 上 的 技术 都 有 更 多 的 限制 。 


2.7 二 义 性 
二 义 文 法 是 指 其 语言 中 存在 一 个 串 有 两 棵 不 同 分 析 树 的 文法 。 考 虑 文法 Gy: 
A.l E-E-E 
A EE*E 
A.3 E — CE) 
AA En 


它 产 生 与 文法 Gs 相同 的 语言 。 图 2-9 oW T [I4 noe n * n 的 两 棵 不 同 分 析 树 ， 通 常 
很 容易 从 产生 式 集合 中 推断 文法 的 词汇 表 和 目标 符号 ,因而 往往 仅 用 产生 式 列表 简写 一 个 文法 
的 规格 说 明 。 

文法 G PB n + n* 的 两 种 分 析 需 要 相同 的 规则 ， 但 在 自 顶 向 下 分 析 ( 最 左 推导 〉 中 应 
用 这 些 规则 的 次 序 导致 不 同 的 分 析 树 。 如 果 将 规则 A.1 先 应 用 到 目标 符号 E， 其 结果 是 右 图 所 
示 的 树 ， 其 中 加 法 运算 符 将 第 一 个 与 男 外 两 个 之 积 相 加 ; 如果 将 规则 A.2 先 应 用 到 目标 符 
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号 EE， 其 结果 是 左 图 所 示 的 树 ， 其 中 乘法 运算 符 将 最 后 一 个 n 与 前 两 个 上 之 和 相 乘 。 我 们 无 法 
确切 地 定义 有 哪些 特征 导致 一 个 文法 是 二 义 的 ， 但 可 以 证 明 某 些 文法 是 二 义 的 。 要 证 明 一 个 文 
法 是 二 义 的 ， 只 需 展示 其 语言 中 某 一 个 串 有 两 棵 不 同 的 分 析 树 ， 但 对 一 个 特定 的 文法 找 出 这 样 
的 例子 可 能 并 不 会 太 容 易 。 


A.2 7 - A.1 
—— | 一 — | 一 一 
二 * = 三 十 三 
A} T A.4 A4 " 
pa | 入 | | Z IN ae 
+O n n * [3 
A. 4 | | A.4 A.4 | | A.4 
n n n n 


图 2-9 二 义 的 文法 Gr WE TRACER n+n*n 有 两 棵 不 同 的 分 析 树 


程序 设计 语言 Pascal 有 一 条 产生 式 导致 它 是 二 义 的 。 作 为 一 个 独立 的 文法 ，Gs = (E, (S), 
P S ) 定 义 了 该 语言 的 一 个 片段 ， 其 中 P 是 下 列 产生 式 的 集合 : 

S — "if" e "then" S "else" S 

S — "if" e "then" S 

S > p 
HE = ( "if", "then", "else", e,p }。 复 合 语句 : 


if e then if e then p else p 


RARAHI if 语句 ， 但 仅 有 一 个 it 带 有 可 选 的 else M4, 这 里 的 问题 是 ， 哪 一 个 is 带 有 
else 部 分 ? Pascal 语言 武断 地 定义 了 else 属于 最 内 层 的 if BA, 但 这 一 句子 同样 也 很 容易 
按 另 一 方式 进行 分 析 。 这 导致 该 语句 有 不 同 的 含义 ， 如 果 else 部 分 与 内 层 it 配对 ， 则 外 层 
if 的 表示 式 求 值 为 假 时 ， 不 管内 层 表达 式 求 值 结果 如 何 ， 内 层 i£ 语句 都 不 会 执行 ， 若 要 执行 
else 部 分 ， 外 层 表达 式 必须 为 真 ， 且 内 层 表达 式 必 须 为 假 。 另 一 方面 ， 如 果 else 部 分 与 外 
层 i£ 配对 ， 那 么 在 任何 情况 下 它 仅 依 赖 于 外 层 表达 式 。 


2.8 文法 思维 的 艺术 


本 书 以 大 量 篇 幅 介绍 了 识别 特定 的 上 下 文 无 关 文 法 和 正则 文法 所 定义 语言 的 计算 机 程序 
构造 机 制 ， 这 可 以 自动 完成 ， 即 存在 一 个 计算 机 程序 根据 文法 定义 构建 一 个 识别 器 自动 机 。 本 
书 以 较 少 的 篇 幅 讨论 如 何 编写 一 个 文法 ， 主 要 原因 是 我 们 已 有 构建 自动 机 的 算法 ， 但 不 存在 为 
任 一 语言 需求 编写 一 个 正确 文法 的 算法 。 这 是 一 种 艺术 ! 然而 ， 正 如 大 多 数 艺术 创作 工作 ， 我 
们 可 学 习 一 些 有 助 于 设计 优秀 文法 的 已 知 技术 和 工具 。 

一 种 重要 的 工具 是 深刻 理解 不 同 乔 姆 斯 基 级 别 在 描述 语言 特性 时 的 局 限 和 能 力 ， 重 点 是 
1—3 级 ，0 级 语言 没有 限制 在 语言 中 可 定义 什么 或 不 可 定义 什么 ， 因 而 无 需 进一步 关注 。 乔 姆 
斯 基层 次 最 高 三 级 的 主要 区 别 是 在 生成 的 串 中 进行 符号 计数 的 灵活 性 ， 所 谓 “计数”， 是 指 将 
一 个 集合 〈 璧 如 该 语言 的 一 个 串 中 的 某 类 特定 单词 ) 中 的 元 素 与 另 一 集合 〈 可 能 是 同一 个 串 中 
的 另 一 类 单词 ) 中 的 元 素 建立 数学 意义 上 的 一 一 对 应 关系 。 像 Modula-2 或 Pascal 这 类 语言 要 
求 左 圆 括号 与 右 圆 括号 必须 配对 ， 这 时 对 左 圆 括号 的 计数 就 是 将 它们 与 数目 相同 的 右 圆 括号 配 
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对 ， 由 于 圆 括号 可 起 套 到 任意 深度 ， 这 种 计数 〈 在 理论 上 ) 是 无 限 的 。 
2.8.1 有 穷 状 态 自动 机 的 局 限 性 

有 穷 自 动机 无 法 对 字母 表 中 的 任何 符号 进行 计数 或 配对 ， 除 非 是 有 穷 数目 。 尽 管 大 多 数 计 
算 机 其 实 就 是 有 穷 状 态 自动 机 实际 上 没有 一 种 计算 机 拥有 无 穷 的 栈 或 无 限 长 的 数据 带 )， 然 
而 这 种 将 一 个 系统 视 为 海量 状态 的 观点 因 系 统 的 复杂 性 而 变 得 没有 什么 价值 ， 这 就 好 像 试 图 通 
过 计算 所 有 树 上 的 树叶 数量 来 测量 一 片 森林 。 因 而 ,我们 仅 考 虑 将 有 穷 状态 自动 机 和 正则 文法 
应 用 到 只 需要 对 少量 元 素 进行 计数 的 情况 。 

文法 G, 是 一 个 对 少量 元 素 进 行 计 数 的 正则 文法 实例 ， 它 定义 的 语言 由 2# 中 恰好 两 个 字符 
的 所 有 串 组 成 。 因 而 ， 该 文法 必须 计数 到 2. 

另 一 个 例子 是 为 校 验 文字 量 的 正确 形式 ， 对 一 个 整数 文字 量 中 的 位 数 进行 计数 。 在 由 0 个 
或 多 个 数字 (为 简单 起 见 ， 假 设 字母 表 中 仅 包含 数字 ) 组 成 的 所 有 可 能 串 的 集合 中 ， 整 型 常量 
是 其 中 那些 至 少 含有 一 个 数字 的 串 ; 因而 对 生成 这 些 文 字 量 的 文法 ， 只 需 对 第 一 个 数字 进行 计 
数 ， 长 度 为 0 的 串 不 属于 该 语言 ， 而 所 有 其 他 的 数字 串 均 属于 该 语言 ， 不 管 其 长 度 如 何 。 注 意 
这 里 仪 关注 整数 常量 的 形式 ， 可 以 想像 (实际 上 也 很 有 可 能 ) 一 个 整数 在 形式 上 是 正确 的 ， 但 
可 能 因 太 大 而 无 法 用 目标 机 器 的 整 型 变量 表示 ; 我 们 将 这 一 问题 看 作 是 一 个 语义 问题 ， 而 不 是 
扫描 程序 需 处 理 的 问题 ， 也 不 是 在 正则 文法 中 试图 避免 的 问题 (但 请 参阅 练习 6)。 

要 保证 一 个 串 中 的 符号 数目 是 奇数 或 偶数 时 ， 计 数 就 没有 那么 显而易见 。 确 定 奇偶 性 只 需 
计数 到 2， 因 而 正则 文法 就 足够 用 了 。 以 下 是 一 个 正则 文法 的 产生 式 ， 该 文法 定义 的 语言 是 由 


偶数 个 a 和 和 奇数 个 5 组 成 的 所 有 串 。 
A-—aB C—aD 
A>bC C>bA 
A >b Da 
B 一 4A DaC 
B >bD D—bB 


上 述 四 个 非 终结 符 中 ，A 表示 语言 中 的 所 有 串 ， 即 由 偶数 个 a MERA b ARITA R 
根据 第 一 条 产生 式 ， 该 语言 中 一 个 串 的 可 能 组 成 是 由 一 个 a 开头 、 后 接 一 个 由 非 终结 符 B 表示 
的 任意 串 。 因 而 ，B 表示 由 奇数 个 a( 即 A 中 的 偶数 再 减 去 开头 的 a) 和 奇数 个 已 组 成 的 所 有 
串 ， 类 似 地 ，C 表示 由 偶数 个 a AARAA b ARENA R. HF 0 是 偶数 ， 非 终结 符 A 亦 可 仅 
由 一 个 5 和 0 个 a 组 成 (A 的 第 三 条 产生 式 ); 同 理 ， 非 终结 符 D 由 奇数 个 a 和 偶数 个 5 的 所 
有 串 组 成 ， 也 可 能 仅 由 单个 单词 < 组 成 。 

一 个 有 效 的 经 验 法 则 是 ， 在 正则 文法 中 只 要 对 一 个 符号 进行 计数 ， 那 么 所 需 的 非 终结 符 数 
目 就 是 计数 必须 达到 的 最 大 值 ， 如 果 必 须 维 护 若 干 独立 的 计数 ， 那 么 计数 所 需 非 终结 符 的 总 数 
就 是 所 有 各 个 需求 的 乘积 。 在 上 述 例子 中 ， 和 希望 对 两 个 符号 (Ca M b) 进行 计数 ， 且 两 个 符号 
均 须 计数 到 2， 由 于 除 计数 之 外 没有 其 他 需求 ， 因 而 所 需 的 非 终结 符 总 数 为 2x 2 = 4。 如 果 规 . 
格 说 明 又 改 为 要 求 a 的 数目 恰好 被 3 整除 ， 那 么 需要 3 个 非 终 结 符 为 a 计数， 并 且 这 3 个 非 终 
结 符 中 的 每 一 个 都 需要 2 个 非 终结 符 为 5 计数， 故 所 需 非 终结 符 的 总 数 为 6。 

正则 文法 还 可 在 生成 的 串 中 强制 规定 某 些 符 号 按 指定 的 次 序 出 现 。 如 果 一 个 非 空 串 由 任意 
数目 的 a、b 和 c AM, (a 必须 在 所 有 4b 之 前 、b 必须 在 所 有 c 之 前 ， 则 以 下 的 简单 文法 即 可 


XR FEBER 27 


满足 要 求 : 
A>aA A>a 
A—bB A-b 
A cC A-c 
B -bB Bb 
BocC Bc 
CcC Cc 


此 处 使 用 一 个 非 终结 符 对 c 的 数目 进行 计数 (最 多 到 1)， 另 一 非 终结 符 对 第 一 个 。 之 前 的 
b 计数 ， 青 一 个 非 终 结 符 生成 第 一 个 5b 之 前 的 a。 由 于 有 3 段 字母 (先是 a 的 ， 再 是 5 的， 最 
后 是 c 的 )， 而 每 段 计数 只 是 1， 因 而 共 需 要 3 个 非 终 结 符 ， 即 三 段 计 数 之 和 。 如 果 第 一 段 要 求 
有 奇数 个 a， 那 么 它 将 需要 2 个 非 终结 符 ， 所 需 非 终 结 符 的 总 数 为 2+ 1+ 1 = 4。 
从 上 述 最 后 一 个 例子 也 可 能 体会 到 “文法 思维 ”的 另 一 个 重要 方面 。 由 于 非 终 结 符 A 是 目 
标 符号 ， 它 表示 语言 中 所 有 的 串 ， 可 将 该 非 终 结 符 理解 为 它 表示 了 “任意 数目 的 a、 后 接任 音 
数目 的 5p、 再 接任 意 数 目的 ce”， 非 终结 符 BERIA bA c 组 成 的 子 串 ， 其 中 不 会 a， 一旦 生 
成 了 第 一 个 5 就 不 会 再 有 a， 非 终结 符 B 记 住 了 这 一 点 。 类 似 地 ， 非 终结 符 C 记 住 了 已 生成 一 
个 c， 因 而 不 会 再 有 任何 a 或 b。 
在 再 前 的 例子 中 , 非 终 结 符 A 表示 由 偶数 个 a 和 奇数 个 5 组 成 的 任意 串 (尽管 尚未 生成 )， 
B 表示 那些 由 奇数 个 a 和 奇数 个 5b 组 成 的 未 生成 囊 ， 从 而 一 旦 A 生成 了 单个 a。， 剩 余 的 未 生成 
串 中 就 少 了 一 个 4a， 因而 它 有 奇数 个 a， 这 正 是 由 B 所 表示 的 串 。 因 而 ， 如 果 一 条 产生 式 用 一 
个 已 生成 的 a 重 写 A， 则 其 右 部 包含 了 非 终 结 符 B。 
2.8.2 上下文 无 关 文法 的 计数 
由 于 下 推 自动 机 有 一 个 无 穷 深度 的 栈 ， 它 可 顺利 地 为 输入 串 中 任意 数目 的 符号 进行 计数 ， 
将 它们 与 数目 相同 的 另 一 些 符号 配对 。 这 里 所 说 的 “计数 ”并 不 是 指 将 符号 的 数目 以 某 种 数值 
表示 存储 起 来 , 数学 意义 上 的 计数 是 指 基数 的 一 一 对 应 , 因而 我 们 的 重点 在 于 匹配 方面 。 例如 ， 
车 要 一 个 文法 对 a 和 4b 计 数 ， 从 而 强制 规定 它们 有 相同 的 数 自 ， 则 只 需 一 个 简单 的 上 下 文 无 关 
文法 即 可 完成 ; 
A>aAba 
AObAaA 
Aoab 
Aba 
尽管 该 文法 是 二 义 的 ， 但 它 仍 演示 了 计数 的 一 个 重要 特性 ， 由 于 在 有 选择 时 ， 我 们 无 法 强 
制 规定 选择 哪 一 条 产生 式 〈 除 非 正 试图 匹配 一 个 特定 的 终结 符 串 )， 因 而 同一 产生 式 中 两 个 符 
号 出 现 的 次 数 必须 相同 ， 才 可 保证 所 有 的 符号 匹配 。 上 述 例子 中 ， 由 于 无 法 强制 规定 选择 四 条 
产生 式 中 的 哪 一 条 《〈 因 为 这 四 条 产生 式 均 重 写 了 非 终结 符 A)， 获 得 相同 数目 a Mb 的 惟一 方 
法 ， 就 是 对 每 一 条 出 现 了 a 或 5 之 一 的 产生 式 ， 在 这 同一 条 产生 式 中 各 放 一 个 a HI b M 
此 方法 ， 就 不 会 生成 一 个 a 而 不 同时 生成 一 个 b。 
在 实际 应 用 中 ， 惟 一 必须 做 到 的 就 是 待 配 对 的 终结 符 (好像) 是 从 同一 “共同 祖先 ”推导 
出 的 ， 所 谓 “共同 祖先 ” 即 单条 产生 式 ， 它 恰好 推导 出 每 一 个 符号 。 例 如 ， 之 前 介绍 的 上 下 文 
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敏感 文法 G; 生成 相同 数目 的 a b 和 c， 但 在 同一 产生 式 中 同时 出 现 的 三 个 符号 由 终结 符 a 以 
BARRA BAC 组 成 ， 这 两 个 非 终结 符 恰 好 分 别 生成 一 个 终结 符 《〈 各 自 对 应 的 小 写字 母 )， 
因而 它们 可 有 效 地 匹配 。 
文法 G, 生成 加 法 和 乘法 的 所 有 算术 表达 式 ， 其 中 采用 习惯 上 的 运算 符 优先 级 ， 但 可 使 用 

圆 括号 重新 规定 优先 级 。 再 次 提醒 为 非 终结 符 赋予 尽量 有 含义 的 名 字 的 重要 性 ， 例 如 已 《表达 
Xx Expression W HFE) T CH Term WEF) ALF CAF Factor 的 首 字 母 )， 从 而 可 反映 这 
些 非 终结 符 表示 了 所 生成 的 语言 中 有 意义 的 组 成 部 分 。 

E E 

E+T T 

T+T F 
F+T ( 
F+F ( 
(E)*F — ( 
(E)*(E) ( 
(T) *(E) ( 
(T)+(T) ( 
(F)+(T) ( 
(F)+(F) ((F+F)) 
(n)+(F) ((n+F)) 
(n)+(n) ((n+n)) 


图 2-10 生成 正确 媒 套 括号 的 两 个 推导 过 程 


让 我 们 先 探讨 圆 括号 的 配对 问题 。 留 意 Go 只 会 生成 那些 成 对 匹配 的 圆 括号 ， 因 为 左 、 碳 
括号 在 同一 产生 式 中 各 自 仅 出 现 一 次 (规则 D.5)。 此 外 , 左 括号 总 是 在 与 它 配 对 的 右 括号 之 前 ， 
它们 在 产生 式 中 的 次 序 强制 规定 了 这 一 点 。 这 并 不 意味 着 所 有 左 括号 都 必须 出 现在 所 有 右 括号 
之 前 ， 实 际 情况 也 并 非 如 此 : Cnatan) tE Pn) (7 ) 也 属于 该 语言 。 然 而 ， 追 踪 这 两 
个 串 的 生成 过 程 〈 如 图 2-10 所 示 ) 可 看 出 ， 生 成 这 两 个 串 时 括号 总 会 正确 地 嵌 套 在 一 起 。 

这 种 “正确 的 嵌 套 ”是 上 下 文 无 关 文 法 的 特征 之 一 : RINT ERAS REANKEKPE 
对 ， 但 无 法 要 求 它们 按 相 同 的 从 左 到 右 次 序 配 对 。 我们 可 写 出 一 个 上 下 文 无 关 文 法 生成 回 文 数 
〈 串 的 前 一 半 与 后 一 半 的 逆序 配对 )， 但 无 法 写 出 一 个 上 下 文 无 关 文法 匹配 同一 单词 拼写 的 两 次 
出 现 ， 要 做 到 这 一 点 需要 一 个 上 下 文敏 感 文法 。 

例如 ， 假 设 要 写 出 一 个 上 下 文 无 关 文 法 生成 如 此 组 成 的 串 : 任意 数目 、 任 意 次 序 的 a 和 bb， 
后 接 单个 c， 最 后 再 接 与 第 一 段 相 同 的 a 和 疡 序列 《次序 也 相同 )。 记 住 为 得 到 与 第 一 段 串 匹配 
的 第 二 段 串 ， 我 们 必须 在 同一 产生 式 中 生成 每 段 各 一 个 的 配对 符号 ,我 们 的 尝试 可 能 有 些 类 似 
文法 Gia: 

A-aAa 
A>bAb 
A >c 

很 不 幸 , 这 个 文法 生成 的 是 第 二 段 作 为 第 一 段 倒 置 的 回 文 数 。 如 果 试 图 修改 前 两 条 产生 式 ， 
使 得 非 终结 符 A 位 于 左 端 或 右 端 ， 那么 两 段 符号 串 就 无 法 按 要 求 以 中 间 的 c 分 隔 。 添 加 另外 的 
非 终结 符 也 不 能 解决 这 一 问题 。 

上 述 分 析 中 有 一 点 是 显而易见 的 : 递归 的 产生 式 〈 生 成 任意 长 度 的 串 的 惟一 途径 ) 将 生成 
递归 的 非 终结 符 之 外 的 所 有 其 他 符号 的 多 个 副本 ; 产生 式 中 这 些 符 号 出 现在 非 终结 符 的 哪 一 
侧 ， 就 从 那 一 侧 弹 出 其 副本 。 因 而 递归 的 产生 式 : 
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A-aAbc 
沿 左 侧 生 成 一 个 个 a、 沿 右 侧 生 成 一 对 对 bc， 如 图 2-11 所 示 。 由 于 每 次 应 用 这 一 递归 的 产 
生 式 会 在 待 处 理 串 中 产生 非 终 结 符 的 另 一 副本 (在 本 例 中 为 A)， 因 而 必须 至 少 有 另 一 个 非 弟 
归 的 产生 式 重 写 这 个 非 终 结 符 ， 例 如 A 一 e， 否 则 这 一 递归 的 产生 式 不 会 生成 任何 串 。 非 递归 
的 产生 式 生 成 的 任何 东西 都 将 出 现在 所 生成 串 的 左 段 与 右 段 的 中 间 。 在 文法 G1? 的 回 文 数 例子 
中 ， 惟 一 非 递 归 的 产生 式 恰好 生成 一 个 c， 这 正 是 回 文 数 的 中 点 。 这 是 一 个 相当 重要 的 概念 ， 
有 助 于 我 们 稍 后 学 习 正 则 表达 式 以 及 构建 LL( 癌 分析 程序 。 


VN 
i -— , jS. be 
ON 
a a ES bc be 
VY 
a a a a iB be bc bc bc 
a a a a & bc bc bc be 
uu 


图 2-11 生成 带 终结 符 的 配对 重复 模式 

2.8.3 对 上 下 文敏 感 

尽管 我 们 并 不 打算 从 上 下 文敏 感 文法 自动 地 构造 线性 有 界 自动 机 (LBA)， 但 了 解 此 类 文 
法 提供 了 上 下 文 无 关 文 法 无 法 提供 的 哪些 东西 ， 有 时 会 带 来 一 些 启示 。 如 前 所 述 ， 需 要 上 下 文 
敏感 性 的 特性 之 一 是 以 相同 次 序 重复 出 现 符号 串 的 能 力 。 上 下 文敏 感 文法 G 生成 的 语言 是 由 
a 和 的 相同 子 串 组 成 的 所 有 对 偶 ， 每 一 子 串 均 以 单个 c 开头 并 结尾 ;文法 如 下 所 示 : 

Gis=({a,b,c},t{S,A,B,F,G },P,S) 

其 中 ，P 是 图 2-12a 所 示 的 产生 式 集合 。 


ScGF S 
GoaGA cGF 
G—bGB caGAE 
Goce caGaF 
Foc cabGBaF 
ÁÀa-aA cabGaBE 
Ab—bA cabGabF 
Bb-—bB cabbGBabF 
Ba->aB cabbGaBbF 
AF—aF cabbGabBFE 
BFobF cabbGabbF 
cabbccabbE 
cabbccabbc 
a) b) 


图 2-12 文法 G3 的 产生 式 ， 见 图 a; URE cabbccabbc 的 推导 过 程 
非 终结 符 G 生成 成 对 的 符号 (a, A) SK (b, B); 非 终结 符 F 标记 最 右 端子 串 的 结尾 ， 也 作 
为 上 下 文告 诉 非 终结 符 A ALB 何 时 转 为 〈 推 导出 ) 终结 符 。A 和 B 在 串 的 中 部 生成 后 ， 在 向 
右 “ 漫 步 ” 时 与 所 有 终结 符 a 和 交换 位 置 ， 直 至 到 达标 记 F。 最 后 当 串 完成 时 ，G 和 下 转 为 
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co BUR F 太 快 转 为 终结 符 , 则 剩余 的 A 或 B 无 法 生成 终结 符 ( 即 推导 过 程 不 会 生成 任何 句子 ); 
类 似 地 , 直至 A 和 了 最 终 到 达 串 的 右 庙 标记 之 前 ， 它 们 不 可 转 为 终结 符 。 尽 管 在 先前 生成 的 A 
和 B 到 达 结尾 并 被 转换 之 前 ， 可 从 中 间 生 成 更 多 的 A 和 了 B， 但 它们 无 法 打 乱 A ALB 的 原 有 次 
序 ， 因 为 只 有 在 较 早生 成 的 非 终结 符 A 或 B 到 达 其 最 终 驻 留 的 位 置 并 成 为 终结 符 之 后 ， 后 生 
成 的 A AI B 才 可 能 进行 交换 并 转 为 终结 符 。 

这 是 一 个 有 趣 的 问题 ， 主 要 因为 它 是 语言 中 “ 先 声 明 、 后 使 用 ”需求 的 种 极其 简化 的 表 
示 。 令 c 代表 程序 的 所 有 其 他 部 分 ， 第 一 个 由 a 和 必 组 成 的 子囊 是 某 一 标识 符 命名 的 变量 或 过 
程 声明 ， 第 二 个 子 捉 是 程序 体 中 对 它们 的 使 用 。 要 让 文法 形式 化 地 校 验 每 一 标识 符 在 使 用 前 均 
有 声明 ， 就 必须 像 这 样 在 句子 中 以 相同 方式 让 一 个 子 串 出 现 两 次 。 过 程 调用 中 的 参数 类 型 检查 
本 质 上 也 是 同一 问题 ， 由 于 上 下 文 无 关 文法 无 法 做 到 这 一 点 ， 我 们 可 断言 上 下 文 无 关 文法 无 法 
检查 变量 和 过 程 声明 的 类 型 。 在 研究 人 员 找到 一 种 有 效 途 径 将 上 下 文敏 感 文法 转换 为 确定 的 自 
动机 ， 以 及 积累 了 编写 上 下 文敏 感 文法 定义 这 些 语言 需求 的 大 量 经 验 之 前 ， 我 们 必须 找 出 另外 
的 方法 处 理 变量 声明 的 检查 问题 。 所 有 现代 编译 程序 都 为 此 使 用 了 一 个 带 符号 表 的 约束 程序 。 

这 -特殊 例子 还 演示 了 开发 一 个 切实 可 用 的 上 下 文敏 感 文法 的 一 些 典型 编写 风格 。 关 键 的 
思路 是 在 非 终结 符 这 一 生成 器 还 活跃 的 地 方 (典型 情况 是 像 上 下 文 无 关 文 法 中 用 到 的 递归 ) E 
成 符号 (或 代表 这 些 符号 的 非 终结 符 )， 然 后 使 用 上 下 文敏 感 的 产生 式 将 仍 处 于 非 终结 符 形态 
的 符号 排序 或 重组 。 只 需 包 含 某 些 可 能 的 符号 排列 
变换 ， 即 可 恰好 取得 所 需 的 效果 。 BA, 在 刚 开始 =, a Y > 六 





时 生成 的 某 一 标记 可 触发 向 终结 符 的 转换 ; 如 有 必 

要 ， 这 种 转换 可 像 推 倒 多 米 诺 骨牌 一 样 传播 .图 a a a YYw YN B C 
2-13 展示 了 文法 Gs 的 传播 路 径 ， 这 是 此 类 文法 思 A Q 

维 的 另 一 实例 。 a a a a a bb bBBC CC CC 
”图 2-13 在 上 下 文敏 感 文法 中 对 符号 排序 


文法 是 语言 的 数学 描述 ， 这 一 描述 的 形式 是 一 个 四 元 组 (5, N, P, S)， 其 中 2 是 字母 表 ，N 是 非 终结 
符 的 集合 ，P 是 产生 式 的 集合 ，S 是 一 个 目标 符号 。 编 写 文法 是 一 种 艺术 ， 这 意味 着 它 不 仅 依赖 于 语言 原 
理 和 设计 技巧 方面 的 知识 ， 还 取决 于 一 些 只 可 意 会 、 不 可 言传 的 创造 性 ， 而 创造 性 更 多 是 源 于 实践 而 不 
是 教学 。 编 写 文法 的 设计 技巧 源 自 对 语言 结构 的 感觉 和 对 语言 形态 的 洞察 ， 使 得 设计 人 员 能 够 将 字母 表 
和 非 终 结 符 塑造 为 一 门 语言 的 描述 。 

乔 姆 斯 基层 次 有 效 地 组 织 了 我 们 要 处 理 的 语言 ， 本 章 将 乔 姆 斯 基层 次 中 的 语言 与 语言 识别 器 及 其 对 
应 的 文法 联系 在 一 起 。 本 书 的 重点 是 正则 文法 和 上 下 文 无 关 文 法 的 机 械 化 实现 ， 但 本 章 还 使 用 了 上 下 文 
敏感 文法 帮助 理解 其 中 的 艺术 性 。 上 下 文敏 感 文法 仅 对 其 产生 式 右 部 的 长 度 有 限制 , 即 对 每 一 产生 式 a 一 
B,，B 中 符号 (终结 符 与 非 终结 符 〉 的 数目 必须 至 少 要 有 a 中 那么 多 ,惟一 允许 的 例外 是 语言 中 的 空 串 。 上 
下 文 无 关 语 言 是 上 下 文敏 感 语言 集合 的 一 个 真子 集 。 上 下 文 无 关 语 言 的 文法 比 上 下 文敏 感 语言 的 文法 有 
更 多 的 限制 ， 即 上 下 文 无 关 文 法 的 每 一 产生 式 的 左 部 必须 恰好 只 有 一 个 非 终结 符 〈 不 可 有 终结 符 )。 正 则 
语言 的 文法 有 更 多 的 限制 ， 在 箭头 右边 最 多 只 能 有 一 个 非 终结 符 ， 并 且 非 终结 符 必 须 全 部 在 最 右 端 。 

语言 识别 器 是 定义 一 个 串 的 集合 的 过 程 。 识 别 器 的 建 模 包 括 三 个 基本 部 分 : 输入 带 ， 有 穷 状 态 的 控 
制 单元 ， 并 可 能 有 某 种 形式 的 存储 。 控 制 单元 类 似 于 一 个 计算 机 程序 ， 它 根据 读 入 的 当前 输入 符号 ， 决 
定 输入 头 在 带 上 移动 的 方向 。 上 下 文 无 关 语 言 的 识别 器 是 下 推 自动 机 (PDA)， 得 名 于 其 存储 单元 一 一 栈 。 

正则 语言 的 识别 器 是 有 人 穷 状 态 自动 机 (FSA)， 这 是 一 种 最 简单 的 识别 器 。 有 人 穷 状 态 自 动机 没有 存储 
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单元 。 给 出 一 个 有 穷 状态 自动 机 的 规格 说 明 时 ， 要 定义 一 个 控制 状态 的 有 穷 集 、 一 个 输入 符号 集 、 一 个 
起 始 状态 ， 以 及 一 个 有 穷 的 终结 状态 集 。 终 结 状态 指示 接受 一 个 输入 串 。 有 穷 状态 自动 机 为 定义 一 门 正 
则 语言 中 串 的 集合 提供 了 另 一 条 途径 。 

总 而 言 之 ， 本 章 介绍 了 两 种 方式 定义 语言 中 的 串 ， 识 别 器 和 文法 。 在 实际 应 用 中 ， 编 译 程序 是 一 个 
识别 器 ， 可 根据 对 应 的 文法 机 械 地 构造 出 来 。 因 而 ， 兢 练 我 们 的 文法 编写 技巧 远 比 直接 关注 自动 机 的 设 
计 技 术 更 为 重要 。 


L 可 用 于 构造 茶 一 特定 语言 中 句子 的 所 有 输入 字符 或 符号 的 有 穷 集 。 

2# HLH 0 个 或 多 个 符号 组 成 的 所 有 可 能 串 的 集合 。 

e aR, 

N EBAR ARTI) 的 集合 。 非 终结 符 是 元 语言 符号 ， 表 示 3#* 的 子 集 。 
P “文法 的 重 写 规则 FER) 集合 。 

> 推导， 推导 过 程 中 的 单个 步骤 。 

=>" 0 步 或 多 步 推导 。 


ASCII American Standard Code for Information Interchange， 美 国信 息 交 换 标 准 编码 ,是 计算 机 中 字母 和 
数字 等 文本 字符 的 一 种 常见 表示 。 

CFG Context-Free Grammar， 上 下 文 无 关 文法 。 

FSA Finite-State Automaton， 有 穷 状态 自动 机 ， 正 则 语言 的 识别 器 。 

FSM Finite-State Machine， 有 穷 状态 机 ， 等 价 于 FSA. 

LBA Linear-Bounded Automaton， 线 性 有 界 自 动机 ， 上 下 文敏 感 语言 的 识别 器 。 

PDA . Push-Down Automaton， 下 推 自动 机 ， 上 下 文 无 关 语言 的 识别 器 。 

TM Turing Machine， 图 灵机 ， 在 所 有 自动 机 中 受到 的 限制 最 少 。 


alphabet〈 字 母 表 ) 即 符 号 集 ， 语 言 中 的 句子 用 其 中 的 符号 构成 。 
ambiguous grammar (二 义 文法 ) ” 指 文法 的 语言 中 至 少 有 一 个 句子 存在 多 于 一 种 的 分 析 ， 或 该 句子 至 
少 有 两 种 最 左 或 最 右 推导 。 
derivation〈 推 导 ) ”是 推导 语言 中 的 一 个 串 的 一 系列 步 又， 每 步 应 用 一 条 重 写 规则 。 
canonical (规范 推导 ) ”以 指定 次 序 应 用 规则 的 两 种 推导 之 一 。 
leftmost (最 左 推导 ) ”推导 中 每 一 步 都 替换 最 左 的 非 终结 符 。 
rightmost〈 最 右 推导 ) ”推导 中 每 一 步 都 替换 最 右 的 非 终结 符 。 
frontier (边缘 ) 分 析 树 的 叶 结 点 ， 表 示 一 个 句子 。 
grammar (文法 ) ”是 一 个 四 元 组 (Z, N, P S)， 其 中 ， 
L= 字母 表 〈 终 结 符 的 集合 ) 
N= 非 终结 符 的 集合 〈 元 语言 符号 ) 
P= 产生 式 〈 重 写 规则 ) 的 集合 
S= 目标 符号 〈 一 个 非 终结 符 ) 
grammar types (文法 类 别 ): 
context free〈 上 下 文 无 关 文法 ) ”这 类 文法 允许 在 应 用 产生 式 时 ， 不 必 考 虑 待 被 重 写 的 非 终结 符 之 


32 F2F 


外 的 其 他 上 下 文 或 符号 。 每 一 产生 式 形 如 A 一 B， 其 中 AseN，Be(NUZ)#。 
context sensitive (上 下 文敏 感 文法 ) ”文法 中 的 每 一 产生 式 形 如 A 一 B 且 IAI 委 1B1， 其 中 IAA 人 表示 
A 的 长 度 。 注 意 ， 这 意味 着 B 不 可 为 空 串 ， 除 非 A 是 目标 符号 且 不 出 现在 任何 产生 式 的 右 部 。 
left linear ( 左 线性 文法 ) ”文法 中 的 所 有 产生 式 形 如 A 一 Bx 或 A 一 x， 其 中 xe E*, A,Be N。 
regular 正则 文法 ) ”是 一 种 右 线 性 文法 ， 其 中 所 有 的 产生 式 形 如 A S xB 或 A 一 x， 其 中 ze 了 Z， 
A, Be N。 若 A 是 目标 符号 且 不 出 现在 任何 产生 式 的 右 部 ， 则 人 允许 产生 式 Ase. 
right linear 〈 右 线性 文法 ) VAPRAT EREU ABR Ax, HF xer, ABEN. 
unrestricted 《无 限制 文法 ) ”文法 中 的 产生 式 形 如 0 一 B， 其 中 gw、B 是 文法 符号 的 任意 串 ， 且 aw:#s。 
language (EB 
(OD 字母 表 > 上 有 穷 长 度 的 串 的 集合 。 
(2) 一 个 全 的 指定 子 集 。 
(3) 一 个 文法 生成 的 串 的 集合 〈 参 阅 grammar 条 目 )。 
(4) 一 个 语言 识别 器 接受 的 输入 串 的 集合 〈 参 阅 recognizer 条 目 )。 
language type 〈 语 言 类 别 ) 
0 〈0 型 语言 ) ”由 一 个 无 限制 文法 生成 的 短语 结构 语言 。 
1 (1 型 语言 ) ”由 一 个 上 下 文敏 感 文 法 生成 的 上 下 文敏 感 语言 。 
2 (2 型 语言 ) ”由 一 个 上 下 文 无 关 文 法 生成 的 上 下 文 无 关 语 言 。 
3 (3 型 语言 ) ”由 一 个 正则 文法 生成 的 正则 语言 。 
nonterminal 〈 非 终结 符 ) ”一 个 不 属于 Z 的 标识 符 或 符号 ， 但 代表 了 ZE* 的 一 个 子 集 。 
parse tree CAMBIO ”用 一 个 二 维 形式 的 图 ， 表 示 将 目标 符号 重 写 为 一 个 句子 的 所 有 步骤 。 也 称 抽象 语 
法 树 (AST)。 
production 《产生 式 ) 
(OD 一 条 重 写 规则 ， 描 述 语言 中 的 句子 如 何 生成 的 一 个 步骤 。 
(2) 一 对 串 x 一 B， 其 中 o 包 含 至 少 一 个 非 终结 符 ， 有 可 以 是 终结 符 和 非 终结 符 的 混合 串 。 
recognizer 识别 器 〉 ”一 个 恰好 接受 (识别 ) 语言 中 所 有 串 的 真实 机 器 或 抽象 机 器 。 
recognizer type 《识别 器 类 别 ): 
0 〈0 型 识别 器 ) ” 即 图 灵机 (TM)， 定 义 了 一 种 短语 结构 语言 或 递归 可 枚 举 语 言 。 
1 (1 型 识别 器 ) ” 即 线性 有 界 自 动机 (LBA)， 定 义 了 一 种 上 下 文敏 感 语言 。 
2 (2 型 识别 器 ) ” 即 下 推 自动 机 (PDA)， 定 义 了 一 种 上 下 文 无 关 语言 。 
3 (3 型 识别 器 )  ” 即 有 穷 状态 自动 机 (FSA)， 定 义 了 一 种 正则 语言 。 
sentence (句子 ) ”语言 中 的 一 个 串 。 
sentential form (AA!) ”推导 过 程 中 的 任意 一 行 。 
stack (XO. ”一 种 线性 数据 结构 ， 其 中 所 有 插入 〔 压 入 〉 和 删除 (弹出 ) 操作 都 作用 在 该 数据 结构 的 同 
一 端 。 
terminal (44477) ”一 个 用 于 构造 语言 中 的 句子 的 符号 ， 是 字母 表 > 中 的 一 个 元 素 。 
vocabulary (词汇 表 ) ”终结 符 和 非 终 结 符 的 集合 OM N). 


1， 指 出 以 下 陈述 是 否 正确 : 
(a) 所 有 上 下 文 无 关 文 法 都 是 上 下 文敏 感 的 。 
(b) 所 有 右 线性 文法 都 是 上 下 文 无 关 的 。 
Ce) 所 有 正则 文法 都 是 右 线性 的 。 

(d) 所 有 正则 文法 都 是 左 线性 的 。 
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Ce) 所 有 左 线性 文法 都 是 上 下 文 无 关 的 。 

(D 所 有 左 线性 文法 都 是 上 下 文敏 感 的 。 

Cg) 所 有 正则 文法 都 是 上 下 文敏 感 的 。 

Ch) 所 有 右 线性 文法 都 是 上 下 文敏 感 的 。 

. 将 下 列 文法 划分 为 无 限制 文法 、 上 下 文敏 感 文法 、 上 下 文 无 关 文 法 、 右 线性 文法 、 左 线性 文法 或 正则 
文法 。 一 些 文法 可 归 入 多 类 ， 请 指出 每 一 文法 所 属 的 所 有 类 别 ; 


(a) S—aB (b S5 Cba (c) S>abC (d) SOaBC 
Sc soc SOA SA 
CocA CC 一 Bec AÀ-aB A—aBA 
BobC B 一 CD A 一 4A Aa 
Bb Bob BobC B— BC 
A—aA ABa B >b Bob 
Aa A—Aa Cc Coc 

(e) Sab (D SoaA (g) Sa Ch) Sab 
SB Sot Sb SB 
B-bc A—bcS S 一 8 B >bc 
Boe 

(i) Sab (jp SoAab (k) S 一 ABC (D S—oaAbc 
SB S 一 了 ABA S 一 8 
B— bc A—Ba A—aB AOBc 
Bab Bobe aBCoabC BobB 

Bt Cocd BocS 


. Ca) 指出 以 上 文法 中 哪些 是 二 义 的 (如 果 有 的 话 )。 

(b) 证 明 你 在 (a) 中 所 选 的 文法 是 二 义 的 。 

. (a) 为 文法 Gs 构造 推导 出 串 (n + n)* n 的 分 析 树 ， 并 分 别 给 出 最 左 推导 和 最 右 推导 。 

Cb) 说 明文 法 Gs 无 法 推导 出 串 n+*n。 

(c) 说 明文 法 G4 无 法 推导 出 串 aaccbb 和 abbeccc。 

. Ca) 构造 一 个 正则 文法 ， 生 成 由 a 和 尹 组 成 的 所 有 串 ， 每 个 串 含 有 奇数 个 a 和 奇数 个 b。 

Cb) 用 你 构造 的 文法 推导 出 串 aababb. 

. (a) 构造 一 个 正则 文法 ， 生 成 由 & 和 尹 组 成 的 所 有 串 ， 其 中 所 有 a 都 按 3 个 一 组 的 方式 出 现 。 

Cb) 用 你 构造 的 文法 推导 出 串 baaabaaabb. 

. 《a) 构造 一 个 正则 文法 ， 生 成 0 和 1 的 所 有 可 能 组 合 ， 并 且 串 的 长 度 不 超过 6 个 字符 。 

Cb) 用 你 构造 的 文法 推导 出 串 01001。 

. (a) 为 Modula-2 语言 的 字符 串 常量 编写 一 个 正则 文法 。 一 个 字符 串 常量 的 组 成 是 由 单 引号 括 住 的 、 
且 其 中 不 再 包含 单 引 号 的 任意 字符 串 , 或 由 双 引 号 揪 住 的 、 且 其 中 不 再 包含 双 引 号 的 任意 字符 串 。 
为 简化 问题 ， 假 设 字母 表 中 仅 有 字符 a. b, ' RI. 

Cb) 用 你 构造 的 文法 推导 出 串 'aba"aab" 

. (a) 编写 一 个 上 下 文 无 关 文法 ， 生成 由 a 和 5 组 成 的 所 有 回 文 。 回 文 是 一 个 正 向 读 和 反 向 读 都 一 样 的 
串 ( 例 如 abaabababaaba)。 

Cb) 用 你 构造 的 文法 推导 出 串 abbaabba， 并 画 出 其 分 析 树 。 


10. (a) 为 Modula-2 语言 的 注释 编写 一 个 上 下 文 无 关 文 法 。 注 释 必 须 用 “(*” 开 头 、 用 ex) BR. 为 


简化 问题 ， 假 设 仅 有 字符 a、b、*、( 和 )。 注 意 注释 是 可 以 幅 套 的 。 
(b》 用 你 构造 的 文法 推导 出 申 (*ab*a**(b*)， 分 别 给 出 最 左 和 最 右 规范 推导 ， 并 面 出 其 分 析 树 。 


11. 


14. 


15. 


18. 
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(a) 编写 一 个 上 下 文 无 关 文 法 生成 由 a 和 二 以 任何 次 序 组 成 的 训 ， 使 得 每 个 串 中 a 的 数目 多 于 b， 
这 也 意味 着 必须 至 少 有 一 个 a。 
Cb) 用 你 构造 的 文法 推导 出 串 paaba， 分 别 给 出 最 左 和 最 右 规 范 推导 ， 并 画 出 其 分 析 树 。 


.〈a) 编写 一 个 上 下 文敏 感 文法 生成 由 a b 和 c 以 任何 次 序 组 成 的 串 ， 使 得 每 个 串 中 a 的 数目 多 于 


b. b BE ECT c， 这 也 意味 着 必须 至 少 有 两 个 w、 至 少 有 一 个 5。 
Cb) 用 你 构造 的 文法 推导 出 串 caabaaba. 


» Ca) 编写 一 个 上 下 文敏 感 文法 生成 由 a、b 和 c 以 任何 次 序 组 成 的 串 ， 使 得 每 个 串 中 a、b A 的 数 


目 相同 。 

Co) 用 你 构造 的 文法 推导 出 串 cacbab. 

(a) 编写 一 个 上 下 文敏 感 文法 生成 由 a 和 也 组 成 的 串 ， 使 得 每 个 串 由 两 个 相同 的 子 串 组 成 。 例 如 ， 
aabaab 就 是 一 个 这 样 的 串 。 

(b) 用 你 构造 的 文法 推导 出 串 babbbabb. 

(a) 编写 一 个 上 下 文敏 感 文法 生成 由 a 和 卢 组 成 的 串 ， 使 得 每 个 串 由 三 个 相同 的 子 串 组 成 。 例 如 ， 
aabaabaab 就 是 一 个 这 样 的 串 。 

CO 用 你 构造 的 文法 推导 出 串 abaaabaaabaa. 


. (a) 为 Pascal 语言 的 实数 常量 (例如 5、4E5、+3.8、--29.6E15、7E-3) 编写 一 个 右 线性 文法 。 注 意 ;: 


小 数 点 的 前 后 总 有 数字 ， 罕 部 分 最 多 只 有 两 位 数字 。 为 简化 问题 ， 令 d 代表 任意 数字 。 
(b) 用 你 构造 的 文法 推导 出 串 -49.72E-12， 分 别 给 出 最 左 和 最 右 规范 推导 ， 并 画 出 其 分 析 树 。 


.描述 以 下 文法 生成 的 语言 。 尽 量 用 自然 语言 捕捉 这 些 语言 的 本 质 ， 而 不 是 仅仅 用 自然 语言 改写 这 些 


文法 。 

(a) S 一 CA (b) S308 (c) SabcA (d) S50 (e) $a 
A>cA S 一 S$0 . S—Aabc $51 $o*SS 
A-0A S18 AE So18S So-4SS 
A—1A S81 AaSa 
A-—c S0 cA-»cS 
A~0 S 一 1 
A1 


为 以 下 每 种 语言 选择 合适 的 文法 级 别 和 自动 机 。 

Ca) 由 0 和 1 按 任何 次 序 组 成 的 所 有 串 ， 每 个 串 中 0 和 1 的 数目 相同 。 

(b) 由 0、1 和 2 按 任何 次 序 组 成 的 所 有 串 ， 每 个 串 中 0、1 和 2 的 数目 相同 。 

Cc) 由 a 和 户 的 两 个 相同 子 串 组 成 的 所 有 串 ， 每 一 子 串 中 & 和 6b 可 以 任意 次 序 出 现 例 如 abaaabaa). 
d) 由 一 个 4a、 一 个 b 和 两 个 c 按 任何 次 序 组 成 的 所 有 串 〈 例 如 cpca )。 

(e) 由 配对 的 圆 括号 组 成 的 所 有 串 〈 例 如 “(())() 六 。 

Cf) 由 成 对 的 0 和 1 组 成 的 所 有 串 ， 即 0 紧 贴 在 与 它 配对 的 1 之 前 或 之 后 。 


. 将 以 下 上 下 文敏 感 文法 改写 为 等 价 的 上 下 文 无 关 文法 。 


S 一 ABS 
S 一 AB 
ABBA 
A 一 0 
Bol 





指出 下 列 陈述 是 否 正 确 : 
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1. 我 们 可 定义 一 个 有 穷 状 态 机 识别 空 语言 。 
2. 仅 由 空 串 组 成 的 语言 是 乔 姆 斯 基层 次 中 的 3 型 语言 。 
3. 不 可 能 构造 一 个 有 穷 状态 机 识别 以 下 文法 定义 的 串 : 
A-0AI1BIOIeg 
B-1Ble 
.问题 3 中 的 文法 是 上 下 文 无 关 的 。 
.问题 3 中 的 文法 所 定义 的 语言 是 正则 的 。 
. 问题 3 中 的 文法 是 左 线性 的 。 
每 一 个 右 线性 文法 都 是 正则 的 。 
， 对 一 种 正则 语言 而 言 ， 最 多 只 有 一 个 有 穷 状 态 机 可 输入 并 接受 该 语言 中 的 串 。 
. 每 一 个 正则 文法 都 是 右 线性 的 。 
10. 每 一 个 文法 定义 的 语言 都 有 一 个 对 应 的 识别 器 。 


编译 程序 实验 项 目 


l. 编写 一 个 正则 文法 生成 如 下 Itty Bitty Modula 语言 的 仔 “类 单词 。 
(a) 所 有 标识 符 。 
(b) 所 有 保留 字 。 假 设 标识 符 INTEGER, BOOLEAN, TRUE 和 FALSE 是 保留 字 (在 标准 Modula-2 
中 它们 是 预先 声明 的 标识 符 )。 
(c) 无 符号 整数 ， 以 及 十 六 进 制 和 八进制 常量 。 
(d) 所 有 运算 符 和 标点 符号 。 
(e) 字符 串 常量 〈 参 见 练习 8)。 
Cf) Itty Bitty Modula 语言 的 注释 ， 但 不 允许 子 串 “(* ”和 “*) ”出 现在 注释 中 。 
2. 编写 一 个 上 下 文 无 关 文法 ， 生 成 Itty Bitty Modula 语言 的 短语 结构 ， 必 要 时 ， 可 参阅 附录 A 的 语法 
图 。 可 使 用 你 在 第 1 章 结束 时 准备 的 单词 列表 作为 你 的 字母 表 。 
3. H Itty Bitty Modula 语言 编写 一 个 小 程序 ， 再 用 你 的 文法 构造 它 的 推导 树 ， 并 为 你 的 程序 分 别 给 出 最 
左 和 最 右 规 范 推导 。 
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第 3 章 ”扫描 程序 和 正则 语 


ABS 

。 详细 说 明 扫描 程序 的 理论 基础 

e 介绍 正则 表达 式 和 正则 语言 的 形式 化 特性 

。 揭示 正则 表达 式 代数 的 实际 意义 

。 描述 正则 表达 式 与 正则 文法 之 间 的 转换 技术 

。 从 正则 表达 式 或 正则 文法 开发 一 个 有 穷 状 态 自 动机 
e 揭示 如 何 将 窃 状 态 自 动机 实现 为 一 个 扫描 程序 

€ 考虑 扫描 程序 使 用 的 字符 串 表 的 有 效 实现 方法 


3.1 词法 分 析 简 介 


编译 程序 的 前 端 读 入 并 分 析 源 程序 文本 ， 它 的 大 多 数 运行 时 间 花 费 在 扫描 程序 的 词法 分 
析 ， 即 从 输入 文件 中 读 入 字符 ， 然 后 将 它们 约 简 为 可 管理 的 单词 ( 字 或 特殊 符号 )。 因 而 ， 编 
译 程序 设计 人 员 有 义务 尽力 提高 扫描 程序 的 效率 。 同 时 ， 我 们 还 关注 是 否 有 一 个 清晰 的 形式 化 
定义 可 产生 正确 的 实现 ， 效 率 并 不 能 替代 正确 性 。 

编译 程序 中 扫描 程序 的 定义 从 一 个 文法 入 手 。 扫描 程序 文法 定义 的 语言 是 一 个 外 部 (文本 ) 
字母 表 中 的 字符 组 成 的 所 有 串 的 集合 ， 这 形成 了 待 编译 语言 中 的 单词 。 例 如 ， 任 一 标识 符 的 串 
都 是 一 个 单词 ， 因 而 它 也 是 扫描 程序 语言 中 的 一 个 句子 。 扫 描 程 序 识别 一 个 这 样 的 单词 ， 然 后 
“停机 ”并 接受 它 。 

这 是 一 门 简单 的 语言 ， 用 一 个 正则 文法 足以 完整 地 定义 该 语言 中 的 所 有 串 。 因 而 ， 一 个 有 
穷 状 态 自 动机 (FSA) 足以 实现 扫描 程序 。 

本 章 介绍 了 从 正则 文法 自动 构造 有 穷 状态 自动 机 的 方法 , 并 展示 了 从 FSA 的 形式 化 规格 说 
明 编写 一 个 扫描 程序 的 几 种 途径 。 本 章 还 介绍 了 如 何 为 文法 添加 必要 的 语义 动作 ， 以 支持 编译 
程序 可 利用 识别 出 来 的 单词 ， 并 展示 了 这 些 动作 在 扫描 程序 的 实现 中 是 如 何 被 处 理 的 。 

然而 本 章 首先 介绍 的 是 表达 正则 语言 的 另 一 -种 表示 法 ， 这 种 表示 法 可 更 直观 地 捕捉 我 们 对 
单词 形态 的 理解 。 本 章 还 将 说 明 这 种 表示 法 与 正则 文法 是 等 价 的 。 


3.2 ”正则 表达 式 


考虑 整数 文字 量 ， 数 值 0 和 384 都 是 整数 文字 量 的 例子 。 我 们 可 用 自然 语言 给 出 整 型 常量 
单词 的 非 严 格 定义 :“ 至 少 有 一 个 十 进 制 数字 ， 后 接 0 个 或 多 个 另外 的 数字 ”。 一 旦 意识 到 上 述 
短语 “0 个 或 多 个 ”与 克 林 星 号 表示 法 有 关系 ， 就 可 将 整 型 常量 的 定义 表示 为 “dd*”， 其 中 4d 
表示 一 个 数字 。 因 而 ， 一 个 常量 是 1 个 数字 、 后 接 0 个 或 多 个 数字 。 

类 似 地 ， 在 Pascal 和 Modula-2 语言 中 ， 一 个 标识 符 由 一 个 字母 (用 a 表示 它 )、 后 接 0 个 
或 多 个 字母 或 数字 组 成 。 如 果 使 用 竖 枉 “1” 表 示 “ 或 ” 则 可 用 “a 1 d” 这 种 写法 表示 “要 么 
一 个 a, 要 么 一 个 a, 但 不 能 两 者 都 是 ”这 个 意思 。 这 样 就 可 将 标识 符 简洁 地 表示 为 “a(a | d)*”。 
这 种 紧凑 的 表示 法 称 为 正则 表达 式 。 正 则 表达 式 是 定义 正则 语言 的 一 种 强大 且 直 观 的 表示 法 。 
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多 数 人 对 正则 表达 式 的 熟悉 源 自 流行 的 UNIX 操作 系统 。 由 于 本 书 采 用 的 表示 法 与 其 他 表 
示 法 略 有 不 同 ， 并 为 了 帮助 读者 进一步 熟悉 作为 本 书 核心 的 文法 表示 法 ， 本 章 在 介绍 正则 表达 
式 时 ， 利 用 一 个 上 下 文 无 关 文 法 描述 其 形式 ; 
RE = ( ( "I", "*",")", "(". © }, ( RegExpn, Term, Primary, Factor ), P, RegExpn ) 
KH, o CEE sigma) 表示 正则 表达 式 所 定义 语言 的 字母 表 中 的 任 一 符号 ，P 是 如 表 3-1 所 示 
的 产生 式 集 合 。 


表 3-1 正则 表达 式 文 法 的 产生 式 


3.1 RegExpn — RegExpn "I" Term { 选择 } 
3.2 RegExpn — Term 
3.3 Term — Term Primary { 连接 } 
3.4 Term — Primary 
. 85 Primary — Factor "*" (XM } 
3.6 Primary — Factor 
3.7 Factor > "(" RegExpn ") { 分 组 } 
3.8 Factor > 6 { 任意 终结 符 } 





除了 用 o 所 表示 的 字母 表 中 的 字符 之 外 , 正则 表达 式 还 有 四 个 元 符号 : “1”、“*”、“)” 和 “(”。 
上 述 文法 给 出 了 正则 表达 式 的 语法 ， 但 并 未 给 出 其 含义 。 它 们 的 含义 (如 表 中 的 注释 所 示 ) 相 
HAA: 竖 杠 表示 选择 ， 即 两 者 选 其 一 ; 这 意味 着 可 随意 选择 竖 杠 右边 的 Term， 而 不 是 竖 杠 左 
边 的 RegExpn。 由 于 产生 式 是 递归 的 ， 前 两 条 产生 式 合 在 一 起 可 生成 一 个 或 多 个 Term 组 成 的 
序列 ， 中 间 由 竖 杠 分 隔 ， 在 整个 序列 中 ， 恰 好 有 一 个 Term 被 选中 。 因 而 ,，“a1b” 表 示 “ 要 么 
是 a， 要 么 是 b5， 但 不 能 两 者 都 是 ”正则 表达 式 “a 1 b 1 c” 表 示 “ 要 么 是 a， 要 么 是 bp， 要 人 么 
是 c， 但 只 能 是 其 中 之 一 ”。 

类 似 地 , 一 个 Term 是 Primary 的 序列 , 它们 之 间 没 有 任何 标点 符号 或 元 符号 分 隔 ， 这 一 序 
列表 示 连 接 。 正 则 表达 式 “cbp ”表示 “a 的 后 面 跟着 b”。 

一 个 Factor 既 可 以 是 字母 表 的 一 个 符号 ， 也 可 以 是 一 个 带 圆 括号 的 表达 式 。 如 果 Factor Æ 
侧 附 有 一 个 星 号 ， 我 们 称 其 为 选 代 ; 星 号 表示 Factor 重复 出 现 0 次 或 多 次 。 因 而 ，a* 表 示 “ 任 
意 数 目的 e， 或 者 没有 任何 a”。 注 意 ， 星 号 运算 符 的 优先 级 最 高 ， 因 而 序列 a1bc* 中 只 有 c 是 
迭代 的 ， 选 择 的 优先 级 最 低 ， 因 而 pc* 合 在 一 起 作为 同一 正则 表达 式 中 a 的 另 一 选项 。 

有 时 会 使 用 另外 两 个 或 三 个 元 符号 , 为 表达 不 同类 别 的 迭代 提供 方便 。 为 引入 这 些 元 符号 ， 
我 们 为 文法 添加 两 条 产生 式 : 

3.9 Primary — Factor "+" 
3.10 Primary — Factor "?" 

加 号 迭代 运算 符 “+” 表 示 Factor 重复 出 现 1 次 或 多 次 〈 不 像 星 号 那样 出 现 0 次 或 多 次 ); 
问号 表示 出 现 0 次 或 1 次 。 这 些 是 次 要 的 和 迭代 运算 符 ， 因 为 它们 完全 可 以 用 原 有 文法 中 的 术语 
来 定义 : 

at 表示 aa* 
a? 表示 ale 
根据 定义 ， 即 可 推出 (a+)? = (a?)+ = a*。 
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3.2.1 正则 表达 式 代 数 

选择 和 连接 运算 表现 出 数学 上 的 “ 域 ” 的 某 些 特征 ， 具 有 与 加 法 和 乘法 运算 相同 的 指导 性 
代数 法 则 。 如 果 一 个 二 元 运算 @ 对 任意 a 和 4b 均 有 a@b =b@a， 则 称 该 运算 是 交换 的 ， 如 果 
运算 @ 对 任意 4a、b 和 < 均 有 (a 8 b) @c=a@(b@c)， 则 称 该 运算 是 结合 的 ， 如 果 运 算 @@ 和 se 对 
任意 a、b 和 c 均 有 a。s(b @c)=aeb@aec， 则 称 运 算 e。 对 运算 @ 是 分 配 的 。 连 接 运算 对 选择 
运算 是 分 配 的 ， 但 反之 不 然 ， 即 a (bp1c) =ablac 但 albcz(a1b) (a1c)。 连 接 运 算 和 选择 运 
算 都 是 结合 的 ， 故 有 (a b)c =a (bc) 且 (a1b)1c=al(b1c); 然而 仅 有 选择 运算 是 可 交换 的 ; a1b = 
bla 但 abz#ba。 选 择 运 算 没 有 么 元 ， 而 连接 运算 的 么 元 是 空 串 e， 因 而 a 8 = 8 a = a。 在 我 们 
热 悉 的 算术 运算 法 则 中 ， 容 易 遗 忘 的 是 选择 运算 的 吸收 律 ， 对 任意 e 均 有 ala = a。 表 3-2 总 
结 了 正则 表达 式 的 一 些 代 数 恒等式 。 


表 3-2 正则 表达 式 的 代数 恒等式 
设 r、s 和 1 为 任意 正则 表达 式 ， 则 : 


1. ris-sir 〈 选 择 运算 的 交换 律 ) 
2. ri(sIN=(ris)le (选择 运算 的 结合 律 》 
3. rirzr (选择 运算 的 吸收 律 ) 
4. r(si=(rs)t (连接 运算 的 结合 律 ) 
5. r(slferslrt 〈 左 分 配 律 ) 

6. (sl) resrltr 〈 右 分 配 律 ) 

7. re=Er=r (连接 运算 的 么 元 ) 
8. r* p* = pt 〈 闭 包 运 算 的 吸收 律 ) 
9. r*-glrirri.. CEA Bl Guia RE) 

10. (r*)* = r* 

11. rrvsr*r 

12. (r* | s*)* = (p* s*)* 

13. (r* s*)* = (r | s)* 

14. (rs)* r=r(s r)* 


15 (rl s)* = (r* s)* r* 


. - 
F 面 演示 这 些 恒 等 式 如 何 用 于 操纵 正则 表达 式 。 考 虑 如 下 正则 表达 式 ; 
a(balca)l(aclab)a 


该 正则 表达 式 可 借助 上 述 恒等式 按 如 下 方式 化 简 ; 





= (abalaca)l(acalaba) (5 RI 6) 
= abal(acal(acalaba)) (2) 
= abal((acalaca)laba) (2) 
- abal(acalaba) (3) 
= abal(abalaca) (1) 
= (abalaba)laca (2) 
= abalaca (3) 
= a(blc)a (5 fH 6) 


化 简 后 的 正则 表达 式 更 简洁 、 更 可 读 地 定义 了 原 正则 表达 式 定义 的 串 的 集合 。 
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[ 32.2 正则 表达 式 的 形式 化 特性 
一 个 正则 表达 式 可 非 形式 化 定义 为 一 种 紧凑 的 表示 法 ， 用 于 定义 同一 字母 表 上 的 串 的 集 
合 。 例 如 ， 如 果 字 母 表 是 { 0, 1 }，( 011 )* 这 种 写法 表示 了 由 0 和 1 组 成 的 所 有 串 。 下 面 形式 
化 地 定义 了 正则 表达 式 : . 
定义 3.1 正则 表达 式 是 一 个 形式 化 表达 式 ， 即 : 
字母 表 世 中 的 单个 字符 
b) 空 串 g 
c) 空 集 { } 
或 者 ， 给 定 2* 中 串 的 集合 R 和 S$， 可 通过 有 穷 步 应 用 下 列 操作 得 到 一 个 正则 表达 式 : 
并 运算 : RISE(xIxeRAxeS] 
连接 运算 : RSa{xylxeRHye S$} 
闭 包 运 算 ; R*={}IRIRRIRRRI-: 
因而 ， 实 际 上 一 个 正则 表达 式 可 以 是 某 一 字母 表 中 的 单个 字符 ， 也 可 以 是 通过 组 合 一 次 或 
多 次 并 、 连 接 、 闭 包 等 运算 建立 起 来 。 例 如 ， 字 母 表 { 0, 1 } 中 的 单个 字符 “0” 是 一 个 正则 表 
达 式 。 注 意 ， 正 则 表达 式 “0” 表 示 集 合 { 0 }， 它 本 身 是 一 种 语言 ， 集 合 { 0 } 是 正则 语言 的 一 
个 例子 。 
定义 3.2 ”正则 语言 是 一 个 字母 表 上 的 囊 的 集合 L， 并 且 工 可 以 由 一 个 正则 表达 式 定义 。 
换 而 言 之 ， 如 果 存 在 一 个 正则 表达 式 可 表达 语言 LPNS, 那么 语言 L 是 正则 的 。 这 意味 
着 如 果 R 和 S 是 正则 表达 式 ， 那 么 R 和 S 分 别 定 义 了 正则 语言 LIR) 和 L(S)。 还 应 注意 ， 用 于 
构造 正则 表达 式 的 集合 是 从 束 中 抽取 的 串 的 集合 ， 从 到 中 抽取 的 每 一 集合 都 可 能 是 有 穷 的 。 这 
些 集合 值得 关注 ， 因 为 其 中 的 每 一 个 都 是 正则 语言 。 可 利用 数学 归纳 法 和 以 下 引 理 证 明 这 一 论 
断 是 正确 的 。 
引 理 3.1 包含 单个 串 的 集合 有 一 个 对 应 的 正则 表达 式 。 
【证 明 】 该 引 理 的 证 明 需 要 对 串 的 长 度 采 用 数学 归纳 法 ， 证 明 留 作 练习 20。 口 
在 证 明定 理 3.1 的 归纳 步 中 需要 用 到 该 引 理 。 
定理 3.1 每 一 个 由 串 组 成 的 有 穷 集 都 是 正则 语言 。 
【证 明 】( 采 用 归纳 法 ) 
基本 步 : 由 定义 ， 空 集 { } 是 一 个 正则 表达 式 ， 再 由 定义 ， 一 个 正则 表达 式 定义 的 串 的 集合 
是 正则 的 ， 故 { } 是 一 个 正则 语言 。 类 似 地 ， 空 串 s 是 一 个 正则 表达 式 ， 因 而 集合 { & } 也 是 正则 
的 。 最 后 ， 一 个 字符 a 是 表示 集合 { a } 的 正则 表达 式 ， 所 以 { a } 是 一 个 正则 语言 ， 因 为 它 可 以 
用 -一 个 正则 表达 式 表 示 。 
归纳 假设 : 假设 由 天 个 元 素 的 串 组 成 的 集合 世 可 由 正则 表达 式 7 表示 ， 即 假设 LL 是 一 个 正 
则 语言 。 
归纳 步 : 证 明 任 意 k + 1 个 元 素 的 串 的 语言 L' 可 由 一 个 正则 表达 式 表 示 。 为 证 明 这 一 点 ， 
可 将 LL' 表 达 为 L 和 { a } 的 并 集 ， 即 将 表达 为 长 度 为 k 的 串 的 语言 L 和 其 中 有 一 个 串 的 语言 L 
(例如 { a }) 的 并 集 。 由 归纳 假设 可 知 ，L 对 应 着 正则 表达 式 r 据 引 理 3.1 也 可 知 ， 语 言 L" 
有 一 个 对 应 的 正则 表达 式 ( 称 之 为 ")。 据 定义 ， 可知 r1r" 是 一 个 正则 表达 式 ， 这 意味 着 语言 
有 一 个 对 应 的 正则 表达 式 ， 这 正 是 我 们 想 证 明 的 。 oO 
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也 可 能 有 读者 会 问 : 定理 3.1 反 过 来 是 否 也 成 立 ? 命题 3.1 陈述 了 这 一 想法 (命题 是 一 个 
可 能 为 真 、 也 可 能 为 假 的 断言 ); 

命题 3.1 每 一 正则 语言 都 是 有 穷 的 。 

【分 析 】 参 阅 练习 21. 口 

最 后 ， 注 意 正则 语言 关于 并 运算 、 连 接 运 算 和 克 林 星 号 运算 都 是 封闭 的 ， 即 可 证 明 如 果 
LI 和 L2 均 为 正则 语言 ,， 则 可 通过 计算 LI1L2 或 LieEL2 或 Li* 或 L# 得 到 另 一 正则 语言 。 这 一 论 





据 总 结 如 下 : 
定理 3.2 如 果 Li 和 Ls 是 正则 语言 ， 则 Li1L2、LieL2 和 Li* 分 别 也 是 正则 语言 。 
【证 明 】 借 助 于 正则 语言 的 定义 可 证 明 该 定理 ， 证 明 的 细节 留 作 练习 22。 口 


集合 R 上 的 克 林 星 号 运算 表示 如 下 连接 运算 的 无 穷 并 集 : 
R*={}IRIRRIRRRI + 
也 可 定义 稍 小 一 些 的 并 集 ， 例 如 : 
RIIRS=-RRRIRRRRR 
根据 定义 ， 我 们 有 : 
定义 3.3 ”给 定语 言 L, +L = {8}， 即 仅 有 一 个 空 串 的 语言 。 
这 产生 了 另 一 定理 : 
引 理 3.2 如 果 工 是 一 个 正则 语言 ， 则 L” 也 是 一 个 正则 语言 。 
【证 明 】 参 阅 练 习 23. 口 
现在 也 可 证 明 : 
定理 3.3 ”如 果 荆 是 一 个 正则 语言 ， 则 下 列 语言 也 是 正则 语言 : 
(aL'IL", X'Pn,m 20 
(DL'2(&£)L 


3.3 ”文法 与 正则 表达 式 的 转换 


正则 语言 既 可 由 一 个 正则 表达 式 定义 ， 也 可 由 一 个 正则 文法 定义 。 换 而 言 之 ， 对 每 一 正则 
文法 ， 存 在 一 个 正则 表达 式 定 义 相 同 的 语言 ， 对 每 一 正则 表达 式 ， 存 在 一 个 正则 文法 产生 相同 
的 语言 。 然 而 ， 某 些 正 则 语言 用 文法 来 定义 会 更 容易 ， 而 另 一 些 正 则 语言 用 正则 表达 式 来 定义 
会 更 清晰 ， 因 而 两 者 之 间 能 够 相互 转换 是 很 重要 的 。 下 面 通过 构造 性 方法 建立 它们 的 等 价 性 。 

正则 文法 的 产生 式 与 正则 表达 式 在 一 个 关键 方面 有 所 区 别 : 文法 是 一 个 由 重 写 目标 符号 的 
规则 组 成 的 集合 ， 而 表达 式 仅 仅 描述 所 生成 的 串 。 正 则 表达 式 在 描述 方面 显得 更 直观 ， 即 通过 
分 析 一 个 正则 表达 式 往 往 比分 析 一 个 文法 更 容易 看 出 语言 中 恰好 有 什么 样 的 串 。 

将 正则 表达 式 转换 为 文法 的 第 一 步 是 将 它 改写 为 一 条 重 写 规则 , 添加 一 个 目标 符号 即 可 做 
到 这 点 。 因 而 对 任意 正则 表达 式 @， 选 择 某 一 非 终结 符 S 并 令 其 为 新 文法 中 的 目标 符号 ， 然 后 
写 出 产生 式 : 

S 一 0 ` 

正则 表达 式 通常 含有 一 些 或 全 部 的 元 符号 ， 而 正则 文法 中 未 定义 这 些 元 符号 ， 因 而 转换 过 
程 的 第 二 步 是 消除 这 些 元 符号 。 

令 x 和 y 是 任意 正则 表达 式 , 可 能 是 空 表达 式 或 包含 非 终 结 符 。 对 每 一 个 如 下 形式 的 产生 式 ， 









: AÀ—xy 
择 某 一 新 的 非 终 结 符 B， 并 改写 为 : 

S A-—xB 

7 Boy 

对 转换 过 程 中 得 到 的 每 一 个 如 下 形式 的 产生 式 : 


By 
j MERE BEER AMZN, AE ASMA. ES SERAAREIK 
BR 而 已， 并 不 会 带 来 其 他 害处 。 对 以 下 形式 的 每 一 产生 式 : 
J A—xly 
| S. 
T A >x 
A >y 

连续 执行 上 述 转换 ， 如 有 必要 可 随时 应 用 代数 恒等式 ， 直 至 得 到 的 文法 是 右 线性 的 ， 即 其 
中 不 含 正则 表达 式 的 元 符号 ， 且 每 一 产生 式 中 最 多 只 有 一 个 非 终 结 符 。 注 意 ， 该 构造 过 程 保证 
了 任 一 产生 式 的 右 部 不 会 有 多 于 一 个 的 非 终结 符 ， 且 非 终 结 符 将 出 现在 最 右 端 ， 类 似 地 ， 任 一 
产生 式 的 右 部 最 多 只 有 一 个 终结 符 ( 如 果 不 是 这 样 ， 只 需 连续 应 用 第 一 条 转换 规则 ， 直 至 结果 
如 此 )。 表 3-3 将 正则 表达 式 转换 为 右 线性 文法 的 规则 总 结 为 规则 R.1 一 R.3。 


表 3-3 ”将 正则 表达 式 转换 为 正则 文法 













文法 的 产生 式 

R.1 A-Xxy A->xB B-y 

R.2 A tx y A >xBly BoxBly 

R.3 A—xly Ax Ay 

R.4 AB Box Ax Box 
AE B -xA B-—xA Box 













(S 是 目标 符号 ) 


可 能 还 存在 一 些 产生 式 没有 终结 符 ， 导 致 文法 虽然 是 右 线性 的 ， 但 不 是 正则 的 。 下 面 说 明 
如 何 将 一 个 右 线性 文法 改写 为 正则 文法 。 如 果 一 个 右 线性 文法 的 任何 单条 产生 式 中 有 多 于 一 个 
的 终结 符 ， 可 采用 上 述 第 一 条 规则 对 这 些 产生 式 进 行 转换 。 下 面 考虑 不 含 终结 符 的 产生 式 。 对 
每 一 个 如 下 形式 的 产生 式 ; 

AB . 

找 出 并 复制 所 有 B 出 现在 左 部 的 产生 式 ， 在 副本 中 用 A 蔡 换 B， 然 后 删除 这 一 有 问题 的 产 
生 式 。 

对 于 空 产生 式 可 采用 第 2 章 介绍 的 转换 方法 ， 即 对 任 一 空 产生 式 : 


S 一 8 Gos 
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A-E 
找 出 并 复制 所 有 A 出 现在 右 部 的 产生 式 ， 从 副本 中 删除 A。 然 后 ， 若 A 不 是 目标 符号 ， 则 删 
除 这 一 空 产 生 式 ， 如 果 A 是 目标 符号 且 A 还 出 现在 某 一 产生 式 的 右 部 ， 选 择 一 个 新 的 非 终 结 
符 G 作为 目标 符号 ， 并 添加 两 条 产生 式 : 
GA 
Got 
连续 应 用 这 两 个 转换 规则 ， 直 至 得 到 的 文法 是 正则 的 。 表 3-3 将 右 线性 文法 转换 为 正则 文 
法 的 规则 总 结 为 规则 R4. — R.6. 
例如 ， 考 虑 将 如 下 丐 则 表达 式 转换 为 正则 文法 : 


a(ald)* 
开始 时 ， 加 上 一 个 目标 符号 S: 
S a(ald)* 
外 层 正 则 表达 式 结构 是 连接 ， 因 而 应 用 规则 R.1: 
S 一 4A 
A->(ald)* 
再 对 第 二 条 产生 式 应 用 规则 R.2， 其 中 x 对 应 圆 括号 中 的 内 容 ， 而 y 为 空 ， 从 而 得 到 ; 
SoaA 
A —(ald)B B->(ald)B 
Ate Boe 
对 两 个 选择 运算 应 用 分 配 律 ， 接 着 应 用 规则 R.3; 
S—aA 
A—aB BaB 
A 一 dB B-4B 
AE B 一 8 
此 时 文法 已 是 右 线性 的 。 可 再 用 规则 ROS 消除 两 个 空 产生 式 ， 可 得 正则 文法 ; 
S— aA S—a ' 
AaB A 一 dB 
Aa Ad 
B-aB B— dB 
Ba Bod 









要 将 一 个 正则 文法 转换 为 正则 表达 式 ， 只 需 将 上 述 过 程 反 过 来 。 换 而 言 之 ， 如 果 单 个 非 终 
结 符 A 有 多 于 一 个 的 产生 式 ， 则 用 单条 产生 式 蔡 换 所 有 这 些 产生 式 ， 将 所 有 右 部 合并 为 单个 右 
W PERHE “I” AR WE 3-4 中 规则 R.3 所 示 。 如 果 得 到 的 产生 式 是 递归 的 ， 可 应 用 交 
换 律 重组 各 个 项 ， 从 而 使 得 所 有 递归 的 非 终结 符 放 在 一 起 ， 然 后 应 用 分 配 律 将 它们 化 为 因子 ; 
再 将 剩 下 的 项 用 结合 律 组 织 在 一 起 ， 从 而 结果 形 如 规则 R.2， 然 后 用 和 迭代 的 形式 取而代之 。 这 
样 就 在 整个 子 表达 式 的 外 面 加 上 了 单个 星 号 ， 这 一 子 表达 式 的 前 身 为 递归 的 产生 式 。 除 目标 符 
号 之 外 ， 任 何 仅 有 一 条 产生 式 的 非 递 妇 的 非 终结 符 若 出 现在 另 一 产生 式 的 右 部 ， 则 可 根据 规则 - 
R.1 以 用 其 右 部 替换 该 非 终 结 符 的 所 有 出 现 。 当 目标 符号 定义 了 惟一 的 一 条 产生 式 ， 且 其 右 部 
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已 无 任何 非 终结 符 时 ， 其 右 部 即 是 所 需 的 正则 表达 式 。 


表 3-4 将 正则 文法 转换 为 正则 表达 式 
| OO O OR O 


A-xB Boy 










3n pus 





AOxAIy 
Ax 


考虑 如 下 的 简单 正则 文法 ， 我 们 希望 将 它 转换 为 正则 表达 式 : 
S>aA _ sa 
A 一 4A Aa 
A—dA Ad 
首先 对 两 个 非 终 结 符 应 用 规则 R.3， 从 而 各 得 一 个 “产生 式 ”; 
SaAla A—aAlaldAld 
根据 交换 律 重组 各 个 项 ， 根 据 结合 律 添加 圆 括号 ， 将 A 中 所 有 递归 的 项 一 起 放 在 左边 : 
S—aAla A—(aAldA)l(ald) 


分 配 律 可 用 于 将 递归 的 A 化 为 因子 ， 从 而 此 时 产生 式 的 形式 已 可 应 用 规则 R2: 
A -»(ald)Al(ald) 
应 用 规则 R.2 可 消除 迭代 符号 的 递归 ， 
A 5 (ald)*(ald) 
注意 ， 上 述 转换 同时 消除 了 递归 的 非 终结 符 A 和 其 后 的 “或 ” 竖 杠 。 此 时 该 正则 表达 式 可 
RS 的 产生 式 ， 得 : 
Soa(ald)*(ald)la 
此 时 得 到 的 正则 表达 式 有 些 兄 长 ， 但 应 用 代数 法 则 可 在 一 定 程度 上 将 它 化 简 。 首先， 对 选 
择 运 算 右 边 的 a 应 用 连接 运算 的 么 元 a=a&， 然后 应 用 分 配 律 将 选择 运算 两 边 中 开头 的 a 化 为 
因子 ， 得 : 
a((ald)*(ald)le) 
据 交 的 定义 ， 可 得 : 
a((aldy le) 
然后 立即 可 得 ; 
a(ald)* 


3.4 有 穷 状 态 自动 机 . 


对 正则 文法 和 正则 表达 式 定义 的 每 一 个 语言 ， 存 在 一 个 确定 的 有 穷 状态 自动 机 识别 同一 语 

。 有 穷 状态 自动 机 定义 为 一 个 五 元 组 ， 即 它 有 五 个 不 同 的 组 成 部 分 : 
M=(2,Q, A, qo, F) 

有 穷 状 态 自动 机 的 字母 表 z 与 正则 文法 的 相同 (也 与 正则 表达 式 规格 说 明 中 的 所 有 6 的 集合 
相同 );，Q 是 状态 的 有 人 穷 集 ， 其 中 qo 是 一 个 特殊 的 状态 ， 称 为 起 始 状态 ; F 是 Q 的 子 集 ， 称 为 
终结 状态 集 或 停机 状态 集 。 停 机 状态 是 FSA 可 停机 的 任何 状态 。 变 迁 规则 的 有 穷 集 A 定 义 了 日 
动机 如 何 基 于 输入 带 上 的 符号 从 一 个 状态 前 进 到 下 一 状态 。 变 迁 是 关于 当前 状态 和 下 一 输入 符 


nu 
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号 的 偏 函 数 : 
AQxE2Q 
对 任意 状态 A 和 输入 符号 a WA a 后 前 进 到 状态 B 的 变迁 记 为 ; 
5(A,a)=B 


格局 是 一 对 (gq, wm )， 其 中 qe Q 是 FSA 的 当前 状态 we 2* 是 剩余 的 (未 读 入 的 ) HA. 
当 自 动机 处 于 格局 ( q, s )， 其 中 q e F 是 一 个 终结 状态 时 ， 自 动机 停机 并 接受 输入 串 。 换 而 言 
之 ， 如 果 当 输入 串 中 不 再 有 符号 之 时 FSA 处 于 一 个 停机 状态 ， 则 称 该 FSA 接受 该 输入 串 ; A 
则 ， 如 果 FSA 所 处 的 状态 没有 针对 下 一 输入 符号 定义 了 的 变迁 ， 则 FSA 阻塞 并 拒绝 将 这 一 输 
入 串 作 为 其 语言 中 的 一 个 成 员 。 如 果 不 再 有 输入 符号 ， 但 FSA 不 是 在 一 个 停机 状态 中 ， 它 也 会 
拒绝 该 输入 串 。 

如 果 两 个 自动 机 接受 相同 的 语言 ， 则 称 它们 是 等 价 的 。 如 果 它 们 等 价 ， 且 具有 相同 的 状态 
和 变迁 ,仅仅 是 状态 的 名 字 不 同 ， 则 称 它们 是 同 构 的 ; 换言之 ， 同 构 的 FSA 仅 在 其 状态 的 某 些 
名 字 上 有 所 不 同 。 如 果 一 个 FSA 不 存在 比 它 更 少 状态 的 等 价 FSA， 则 称 该 FSA 为 约 简 的 。 图 
3-1 中 以 图 形 方式 展示 的 一 个 简单 的 有 穷 自动 机 是 约 简 的 ,图 3-2a 所 示 自 动机 与 之 同 构 , 图 3-2b 


所 示 自 动机 与 之 等 价 。 
(s) 
a d a 
A |B 
*B|B B COP 
a) 


图 3-1 一 个 简单 的 有 穷 自动 机 ， 分 别 以 图 形 和 表格 表示 3-2 ”两 个 等 价 的 有 穷 自动 机 


再 次 考虑 由 所 有 以 a 开头 、 并 另外 包含 任意 数目 的 a 和 4d 的 串 组 成 的 语言 。 图 3-1 以 图 形 

方式 展示 了 识别 该 语言 的 一 个 简单 的 双 状 态 FSA， 其 形式 化 定义 为 : 
M=({a,d},{A,B}, {8(A,a)=B,5(B,a)=B,5(B,d)=B},A,{B}) 

字母 表 z 由 两 个 符号 a Bld 组成， 有 两 个 状态 A 和 B，A 是 起 始 状态 ，B 是 终结 状态 集中 
的 惟一 成 员 ， 在 图 3-1 中 用 双 线 圆 表示 ， 有 三 条 变迁 ， 每 条 变迁 在 图 中 用 一 条 弧 表 示 ， 弧 上 标 
记 了 FSA 执行 变迁 时 依据 的 输入 符号 。 该 自动 机 是 约 简 的 , 因为 不 存在 更 少 状态 的 等 价 自动 机 。 

图 3-1 还 以 表格 形式 给 出 了 同一 FSA， 表 格 中 的 行 表示 状态 ， 列 表示 输入 符号 。 某 一 特定 
行 与 列 的 空白 入 口 表示 不 存在 变迁 , 即 此 时 FSA 将 阻塞 。 停 机 状态 在 其 状态 名 字 上 用 星 号 标记 。 

试 对 一 个 输入 串 ada 运行 该 自动 机 。 初始 格局 是 (A, ada), 在 状态 A 沿 输入 符号 a 有 一 个 合 
法 的 变迁 ， 因 而 移动 一 步 之 后 ， 格 局 变 为 ( B, da) 下 一 变迁 令 其 转 入 (B,a)， 然 后 是 (B,s); 由 
于 B 是 一 个 终结 状态 ， 因 而 该 自动 机 接受 输入 串 ada。 如 果 打算 对 输入 串 dd 运行 同一 FSA， 会 
发 现在 状态 A 沿 输入 符号 4 不 存在 变迁 ， 因 而 该 自动 机 阻塞 并 拒绝 dd， 认 为 它 不 属于 该 语言 。 


3.5 不 确定 的 有 穷 状态 自动 机 


尽管 编译 程序 设计 中 仅 对 实现 确定 的 自动 机 感 兴趣 , 但 学 习 不 确定 的 FSA 仍 是 有 益 的 , 这 
主要 是 因为 从 文法 到 扫描 程序 的 转换 具有 不 确定 性 。 





46 #3 Ë 


在 任意 给 定 的 状态 、 对 任意 给 定 的 输入 符号 ， 确 定 的 自动 机 最 多 只 有 一 个 可 能 的 变迁 ， 而 
不 确定 的 有 穷 状 态 自动 机 (NDFA) 与 确定 模型 在 两 方面 有 区 别 。 首 先 ， 对 任意 给 定 的 状态 和 
输入 符号 ，NDFA 可 有 多 于 一 个 的 可 能 变迁 ，NDFA 可 随意 挑选 任何 一 个 可 用 的 变迁 。 当 然 ， 
某 些 变迁 可 能 导致 阻塞 ， 但 只 要 从 起 始 状 态 到 终结 状态 存在 至 少 一 个 变迁 序列 读 完 整个 输入 
串 ， 即 可 称 该 NDFA 接受 这 一 输入 串 。 

另 一 区 别 是 NDFA 允许 不 读 入 任何 输入 单词 就 执行 状态 变迁 ， 这 称 为 空 变迁 。 从 一 个 状态 
出 发 既 可 以 有 空 变迁 也 可 以 有 非 空 变迁 ， 并 且 NDFA 可 随意 挑选 其 中 的 一 个 空 变迁 ， 或 对 当前 
输入 符号 可 用 的 任 一 变迁 。 

不 确定 的 有 穷 自动 机 以 表格 形式 表示 时 ， 在 每 一 行 、 列 使 用 目标 状态 的 一 个 集合 ， 并 另 加 
一 列表 示 空 变迁 。 图 3-3 展示 了 一 个 简单 的 NDFA， 它 识别 由 所 有 以 a 开头 、 并 另外 包含 任意 
数目 的 a 和 4 的 串 组 成 的 语言 。 该 NDFA 等 价 于 图 3-1 所 示 的 确定 FSA. 

图 3-3 中 的 NDFA 在 状态 B 是 不 确 de 


£ 


定 的 ， 因 为 从 格局 ( B, da ) 出 发 , 该 自 OO a 

动机 可 转移 到 以 下 任意 格局 之 一 : ( A, V^ D. elp “BAC 
a )、(B,a )、( A, da yX( C, da). $ 

中 ， 只 有 前 两 个 格局 最 终 会 接受 剩 下 的 图 3-3 一 个 不 确定 的 有 穷 自动 机 


输入 串 ， 状 态 A 和 状态 C 对 沿 d 出 发 不 存在 变迁 ， 因 而 后 两 个 格局 都 会 阻塞 。 


3.6 ”将 文法 转换 为 自动 机 


我 们 用 正则 文法 和 正则 表达 式 编 写 扫描 程序 的 规格 说 明 ， 剩 下 的 其 他 工作 都 是 机 械 的 。 正 则 
文法 与 有 穷 自 动机 之 间 保 持 着 一 种 特殊 的 关系 。 根 据 以 下 构造 规则 , 可 从 文法 直接 构造 一 个 NDFA: 

。 字母 表 仍 相同 。 

e 对 文法 中 的 每 一 非 终结 符 , 在 NDFA 中 创建 一 个 同名 的 状态 ; 并 将 目标 符号 $ 作为 起 始 

状态 S. 

© 添加 一 个 新 状态 ， 使 之 成 为 惟一 的 终结 状态 。 

e 然后 对 文法 中 的 每 一 产生 式 A 一 xB， 在 NDFA 中 构造 一 个 变迁 6 ( A,x)=B。 

e 对 文法 中 的 每 一 产生 式 A x, 在 NDFA 中 构造 一 个 变迁 5 (A, x) =F, 其 中 下 是 终结 状态 。 

这 样 构造 的 自动 机 很 可 能 是 不 确定 的 ， 因 为 正则 文法 中 两 个 不 同 的 产生 式 有 可 能 左 部 有 相 
同 的 非 终结 符 ， 且 右 部 有 相同 的 终结 符 。 稍 后 将 介绍 如 何 将 NDFA 确定 化 。 

通过 将 正则 表达 式 转换 为 一 个 正则 文法 ， 可 根据 正则 表达 式 构造 一 个 有 穷 自动 机 。 如 果 不 
这 样 ， 正 则 表达 式 也 可 按 以 下 算法 直接 转换 为 一 个 执行 识别 任务 的 NDFA: 定义 一 个 “ 黑 盒 ” 
两 端 各 有 一 个 状态 , 其 中 是 正则 表达 式 ; 在 左 端 附加 一 个 起 始 状态 , 在 右 端 附加 一 个 停机 状态 ， 
并 从 起 始 状 态 到 黑 盒 、 从 黑 盒 到 停机 状态 各 添 
一 条 空 变 迁 ， 如 图 3-4 所 示 ; 然后 对 不 完整 的 
自动 机 中 每 一 黑 盒 应 用 图 3-5 中 的 转换 规则 
FE1~R5， 将 其 分 裂 为 更 小 的 黑 盒 ， 直 至 不 剩 
任何 黑 盒 。 图 3-6 给 出 了 正则 表达 式 a (ald)* 
的 转换 过 程 。 图 3-4 开始 将 一 个 正则 表达 式 转换 为 一 个 NDFA 





IHE FUE ME SF 47 


n Sa Dm GO drh 





F.2 


F.3 





" dxb-dqcb 
" dD soo 


图 3-5 将 正则 表达 式 转换 为 状态 变迁 的 规则 
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3-6 ”将 一 个 正则 表达 式 转换 为 一 个 FSA 


从 正则 表达 式 构造 一 个 NDFA 图 时 ,往往 有 一 个 很 具 诱 惑 性 的 想法 ， 就 是 经 过 仔细 推荐 后 
可 删除 许多 空 变迁 和 多 余 状 态 。 然 而 正如 将 正则 表达 式 转换 为 文法 那样 ， 如 果 遇 到 嵌 套 的 或 连 
在 一 起 的 迭代 运算 符 而 未 小 心 处 理 ， 则 有 可 能 改变 了 语言 。 规则 F3 创建 新 状态 C 和 D 以 及 从 
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A 到 C、 从 D 到 B 的 空 变迁 显而易见， 删除 这 些 新 状态 及 其 变迁 ， 仅 保留 从 A 到 B、 从 也 
到 A 的 空 变迁 ， 这 对 许多 类 似 正 则 表达 式 a (a1d )* 中 的 简单 迭代 运算 符 是 可 行 的 ，FSA 仍 可 
识别 与 正则 表达 式 相 同 的 语言 ， 如 图 3-7 所 示 。 然 而 ， 考 虑 正则 表达 式 ( a*b )*， 其 中 每 一 非 空 
串 至 少 以 一 个 5 结尾。 使 用 错误 的 规则 F3 所 构造 的 FSA 却 识别 那些 仅 含 a 的 串 ， 如 图 3-8 所 
示 ， 这 显然 改变 了 语言 。 


错误 的 规则 F3 = Qe 








图 3-8 删除 空 变迁 改变 了 ( a* b )* 的 语言 。 单 个 a 本 是 一 个 
不 合法 的 串 ， 其 状态 变迁 为 S-A-C-A-B-F (加 粗 的 弧 》 


3.7 自动 机 的 转换 


如 前 所 述 ， 不 确定 的 自动 机 在 编译 程序 设计 中 并 不 是 十 分 有 用 。 将 一 个 不 确定 的 NDFA 转 
换 为 一 个 约 简 的 确定 FSA 需要 四 个 步骤 ， 如 表 3-5 所 示 。 它 们 从 消除 两 类 空 变迁 开始 。 


表 3-5 ”构造 一 个 确定 有 穷 状态 自动 机 的 步骤 
1. 将 空 环 路 上 的 每 一 状态 合并 为 单个 状态 ， 从 而 删除 空 环 路 。 
2. 将 目标 状态 复制 到 源 状 态 ， 从 而 删除 空 变迁 。 
3. 构造 一 个 新 的 FSA， 其 状态 代表 NDFA 中 状态 的 集合 ， 从 而 消除 不 确定 性 。 
4. 找 出 状态 之 间 的 等 价 类 ， 从 而 约 简 FSA。 
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3.7.1. 删除 空 环 路 

从 正则 表达 式 直接 构造 NDFA 的 规则 F3 引入 一 个 空 环 路 ， 即 两 个 或 多 个 状态 ， 其 间 以 空 
变迁 相连 ， 从 而 任 一 状态 可 沿 空 变迁 前 进 到 环 路 中 的 任何 其 他 状态 。 显然 , 一 个 FSA 处 于 任 一 
此 类 状态 时 ， 不 必 读 入 任何 输入 ， 即 可 前 进 到 环 路 中 的 任何 其 他 状态 ， 因 而 一 个 空 环 路 中 的 所 
有 状态 都 是 等 价 的 。 因 此 ， 将 一 个 空 环 路 中 的 所 有 状态 可 看 作 单 个 状态 ， 而 不 会 改变 FSA 所 识 
别 的 语言 。 从 原 环 路 中 任 一 状态 出 发 的 所 有 变迁 成 为 从 新 的 单个 状态 出 发 的 变迁 ， 转 入 原 环 路 
中 任 一 状态 的 所 有 变迁 成 为 转 入 单个 状态 的 变迁 。 所 产生 的 从 任 一 状态 到 其 自身 的 空 变 迁 〈 包 
插 从 新 的 单个 状态 到 其 自身 的 任 一 空 变迁 ) 都 是 元 余 的 ， 并 可 被 安全 地 删除 。 图 3-9 以 图 形 方 
式 展 示 了 这 一 步骤 ， 其 中 含有 状态 C 和 了 D 之 间 的 空 变 迁 〈 形 成 含有 2 个 状态 的 空 环 路 )， 以 及 
E、B 和 CC 之 间 的 空 变迁 《形成 含有 3 个 状态 的 室 环 路 )。 由 于 这 两 个 环 路 都 包含 状态 C， 所 以 
一 个 更 大 的 空 环 路 E-B-C-D-C-E 可 安全 地 合并 为 单个 状态 ， 将 它 标 记 为 BCDE。 注意 ， 转 入 任 
一 原状 态 的 所 有 变迁 现 转 入 合并 后 的 状态 ， 从 任 一 原状 态 出 发 的 所 有 变迁 现 改 为 从 合并 后 的 状 
态 出 发 ， 空 环 路 本 身 除 外 。 被 合并 的 状态 之 间 的 非 室 变迁 (例如 从 了 D 沿 a 到 B) 处 理 起 来 与 其 
他 变迁 一 样 ， 然 而 应 注意 由 于 这 些 变迁 的 两 端 均 为 空 环 路 的 状态 ， 该 变迁 将 改 为 从 状态 BCDE 
(其 前 身 为 D) 沿 a 转 到 自身 〈 其 前 身 为 B) 的 变迁 。 





图 3-9 将 一 个 空 环 路 〈E-B-C-D-C-E) 化 简 为 单个 状态 (BCDE) 


在 一 个 NDFA 的 表格 表示 中 更 容易 找 出 空 环 路 。 表 格 中 所 有 空 变 迁 用 e 列 的 入 口 表示 ， 可 
为 该 列 的 所 有 入 口 构造 一 棵 空 变迁 树 ， 将 入 口 的 开始 状态 连接 在 一 起 ， 如 图 3-10b 所 示 。 一 旦 
树 中 有 一 条 变迁 折 回 树 中 的 已 有 状态 ， 辟 如 图 3-10 中 从 状态 D 回 到 状态 C， 则 表示 找到 一 条 
环 路 : 该 回路 中 的 每 一 状态 都 属于 这 一 环 路 ， 但 沿 单 向 空 变迁 转 入 或 跳出 回路 的 状态 均 不 属于 
空 环 路 。 因 而 ，C-D-C 是 一 条 环 路 ，B-C-E-B 也 是 一 条 环 路 ; 但 从 A 到 B 的 空 变迁 不 是 环 路 的 
一 部 分 ， 从 B 到 G 的 空 变迁 也 不 是 。 此 外 ， 尽 管 从 本 到 A 有 一 条 变迁 ， 但 它 不 并 是 空 变迁 ， 
因而 它 不 会 产生 空 环 路 ;我 们 只 需 检查 表格 中 的 空 变迁 列 。 





A 
>S | 
^ B 
B GC 
C DE as 环 路 
D C G C A BCDE 
E B ^ ^ BCDE lAjBCDE F G 
*F *F 
G H J DE GIF HJ 
H | ne H F 
J A F J A 


a) b) c) 
图 3-10 在 状态 表 中 找 出 并 合并 空 环 路 。 图 a 中 的 表 是 原 NDFA; 图 b 中 的 图 以 单 棵 树 展示 了 所 有 的 
空 变迁 ， 其 中 空 环 路 用 粗 线 表 示 ;， 图 c 中 的 表 将 空 环 路 的 四 个 状态 合并 为 单个 状态 BCDE 
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上 述 例子 中 ， 可 独立 地 将 状态 C 和 D 合并 为 单个 状态 CD， 然 后 发 现 到 CD 属于 环 路 
B-CD-E-B, 并 再 将 它 合 并 到 单个 状态 BCDE; 或 者 也 可 先 将 环 路 B-C-E-B 合并 为 单个 状态 BCE， 
然后 它 成 为 环 路 BCE-D-BCE 的 一 部 分 。 这 两 种 方法 产生 的 结果 均 与 前 述 方法 相同 ， 即 观察 到 
状态 C 同时 属于 两 个 环 路 ， 因 而 将 两 个 环 路 合 在 一 起 形成 单个 空 环 路 。 

合并 空 环 路 中 的 状态 时 ， 这 些 状态 名 字 的 每 次 出 现 被 替换 为 合并 后 的 状态 名 字 。 上 述 例子 
h, MEIRA SH a 到 EE 的 变迁 成 为 从 S 沿 a 到 BCDE 的 变迁 保留 从 A 到 B 的 空 变迁 作 
为 从 A 到 BCDE 的 空 变迁 。 从 环 路 出 发 的 四 个 变迁 (从 B 到 G 的 空 变迁 、 从 B 沿 a F A M 
D 沿 a 到 B， 以 及 从 D 沿 到 F) 保留 下 来 ， 作 为 从 新 合并 的 状态 BCDE 出 发 的 变迁 。 惟 一 删 
除 的 是 从 新 合并 的 状态 出 发 并 转 入 该 状态 自身 的 空 变迁 ， 即 原 有 的 空 环 路 变迁 。 如 果 原 环 路 中 
的 任 一 状态 是 停机 状态 ， 这 一 特征 也 被 复制 到 合并 后 的 状态 ， 使 合并 后 的 状态 成 为 一 个 停机 状 
态 。 上 述 例子 不 属于 这 种 情况 。 

3.7.2 ”删除 空 变 迁 

一 旦 所 有 空 环 路 通过 将 其 状态 合并 为 单个 状态 得 以 删除 后 ， 剩 下 的 所 有 空 变迁 也 可 被 删 
除 。 从 任 一 状态 A 到 另 一 状态 B 的 空 变迁 表明 ， 如 果 自 动机 处 于 状态 A， 则 它 可 以 执行 从 B 
出 发 的 任 一 合法 变迁 , 就 好 像 这 些 变 迁 是 从 A 出 发 的 那样 ， 因 为 它 不 必 读 进 输入 即 可 前 进 到 状 
AB (否则 会 影响 其 格局 )。 由 于 不 存在 剩余 的 空 环 路 ， 反 之 不 成 立 ， 即 一 旦 FSA 执行 了 从 A 
到 B 的 空 变迁 ， 它 无 法 在 不 读 进 输入 的 情况 下 回 到 状态 A。 

删除 空 变迁 的 方法 是 将 目标 状态 复制 到 源 状态 ， 即 从 B 出 发 的 所 有 变迁 同时 也 成 为 从 A 
出 发 的 变迁 。 从 图 形 表示 看 ， 这 就 好 像 提 起 B 的 一 个 副本 ， 同 时 一 起 带 出 它 的 所 有 箭头 后 端 复 
制 后 的 副本 ， 再 将 B 的 这 个 副本 拉 伸 到 A 之 上 ， 如 图 3-11 所 示 。 在 此 过 程 中 ， 不 复制 射 入 B 
的 箭头 前 端 ， 但 如 果 状 态 B 是 一 个 停机 状态 ， 则 该 副本 也 将 携带 这 一 特征 。 注 意 ， 原 来 从 状态 
A 出 发 的 变迁 仍 将 保留 下 来 ， 只 是 添加 了 一 些 从 A 出 发 的 新 变迁 。 





图 3-11 通过 复制 空 变迁 的 目标 状态 删除 一 条 空 变迁 。 原 NDFA (Al a) 有 一 条 从 状态 A 到 状态 
B 的 空 变迁 ， 其 转换 过 程 是 将 B 的 一 个 副本 〈 图 b)“ 拉 伸 ” 到 A 之 上 (图 c 后 端 位 
T B 的 所 有 弧 也 被 复制 ， 但 不 复制 那些 前 端 在 B 的 弧 。 最 后 ， 空 变迁 被 删除 图 d) 
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图 3-12 中 的 表格 表示 更 加 直观 将 B 那 一 行 的 所 有 东西 复制 到 A 那 一 行 ， 包 括 其 他 的 
空 变迁 , 但 是 引起 复制 的 那 条 空 变迁 被 删除 。 如 果 原 来 已 有 从 状态 A 沿 某 一 单词 a 出 发 的 变 
XE, 并 且 从 状态 B 也 有 沿 同一 单词 出 发 的 变迁 ， 则 新 状态 A 沿 单词 a 出 发 有 两 个 不 确定 的 变 
迁 。 如 果 作 为 复制 源 的 行 是 一 个 停机 状态 ， 如 图 3-12 的 第 二 步 所 示 ， 则 作为 复制 目标 的 那 一 
行 也 成 为 一 个 停机 状态 。 注 意 ， 复 制 额外 的 变迁 时 只 删除 引起 复制 的 那 条 空 变迁 ， 空 变迁 的 
目标 状态 仍 保留 下 来 。 在 当前 这 一 步 又， 该 状态 可 能 是 不 可 访问 的 ， 但 我 们 在 下 一 步 将 解决 
这 一 问题 。 





图 3-12 通过 复制 空 变迁 的 目标 状态 删除 一 条 空 变迁 。 删 除 从 A 到 B 的 空 变迁 
的 方法 是 将 行 B 复制 到 行 A (Bla); 然后 以 类 似 方法 将 行 F 复 制 到 行 
H， 以 删除 从 HH 到 F 的 空 变迁 (图 b)， 并 令 H 为 停机 状态 (图 c) 

连续 应 用 这 一 步骤 ， 即 可 删除 所 有 的 空 变迁 。 机 灵 的 读者 会 注意 到 ， 首 先 从 那些 以 无 空 变 
迁 转 出 的 状态 为 转 入 目标 的 空 变迁 入 手 ， 手 工 执行 本 步骤 时 可 更 省 事 ， 否 则 ， 有 些 复制 工作 可 
能 是 重复 的 。 这 一 复制 过 程 总 是 会 终止 的 ， 否 则 将 存在 一 条 环 路 。 然 而 ， 我 们 已 知 上 一 步骤 已 
删除 了 所 有 空 环 路 。 
3.7.3 自动 机 的 确定 化 

一 旦 删除 了 所 有 的 空 变迁 , 即 可 进一步 从 NDFA 构造 一 个 确定 的 FSA。 这 一 步 的 做 法 是 定 
义 一 个 确定 的 FSA, 它 的 一 个 状态 代表 了 原 NDFA 的 一 个 状态 集合 。FSA 的 每 一 状态 记录 了 对 
已 读 入 的 这 一 部 分 输入 串 的 识别 。 在 NDFA 中 ,一 个 给 定 的 部 分 输入 串 可 到 达 多 个 状态 中 的 任 
意 一 个 ， 而 新 的 确定 FSA 则 对 每 一 可 能 的 部 分 输入 串 恰好 定义 了 一 个 状态 。 在 FSA 的 表格 表 
示 中 ， 构 造 过 程 简单 而 直接 ， 图 形 表 示 并 不 会 令 这 一 构造 过 程 更 可 读 或 减少 错误 ， 因 而 不 建议 
采用 图 形 表 示 。 

开始 时 建立 一 个 新 表格 ， 将 起 始 状 态 作为 该 表格 的 第 一 个 入 口 ， 由 于 仅 有 一 个 起 始 状 态 ， 
在 构造 的 FSA 中 起 始 状态 仍 标记 为 该 状态 名 。 在 图 3-13 中 ， 起 始 状态 是 状态 A。 对 添加 到 新 
表格 中 的 每 一 状态 g， 从 该 状态 沿 某 一 特定 单词 x 出 发 的 变迁 ， 是 确定 状态 q 所 代表 的 NDFA 
状态 集中 的 所 有 状态 沿 x 出 发 的 变迁 的 并 集 。 在 这 一 例子 中 ，A 沿 b 出 发 有 变迁 分 别 到 自身 、 
D 和 FF， 因 而 这 些 状态 的 并 集 用 于 命名 新 的 状态 ， ADF。 

当 每 一 个 新 状态 作为 一 个 变迁 的 目标 状态 添加 到 正在 构造 的 表格 中 时 ， 车 该 状态 还 不 存 
在 , 则 将 该 状态 也 添加 到 状态 名 称 行 的 列表 中 。 在 图 3-13 的 例子 中 , 起 始 状态 将 状态 B 和 ADF 
添加 到 列表 中 ， 类 似 地 ， 状 态 B 有 变迁 转 到 C 和 上， 因而 添加 了 新 状态 CF。 
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c) 
图 3-13 ANDFA (Él a) 构造 一 个 确定 的 FSA。 从 起 始 状态 入 手 ( 图 b)， 并 填写 
其 变迁 。 对 作为 变迁 目标 的 每 一 新 状态 ， 将 它 添加 到 状态 名 字 中 (图 o. 
在 NDFA 中 作为 一 条 变迁 的 目标 的 每 一 状态 集 命名 了 一 个 新 状态 (图 A, 
除非 该 状态 已 有 命名 。 当 不 再 有 新 状态 加 入 时 ， 这 一 过 程 结束 (图 e) 


状态 ADF 是 状态 A、D ALF 的 并 集 。 由 于 下 是 停机 状态 ， 因 而 ADF 也 是 停机 状态 。 在 
NDFA 中 ， 状 态 A 没 4 转 到 B、 而 D 沿 & 转 到 BE， 故 其 并 集 转 到 名 为 BE 的 状态 ; F 无 沿 4 出 
发 的 变迁 ， 因 而 不 会 添加 任何 东西 。 类似 地 ， 对 输入 单词 5»，ADF $R A, D, F} (从 A 出 发 )、 
{E,D,H} A DHR) 和 { D, H} (AF 出 发 ) 的 并 集 ， 即 集合 { A, D,E, E H }， 记 为 ADEFH。 

处 理 状态 BE 时 ， 会 发 现 从 状态 B AE 的 并 集 沿 b5 出 发 的 变迁 产生 了 状态 CF， 而 这 一 状 
态 已 出 现在 新 的 状态 集中 。 从 状态 ADEFH 出 发 的 变迁 也 不 会 添加 任何 新 的 状态 。 因 而 ， 得 到 
的 确定 FSA 有 9 个 状态 。 

3.74 自动 机 的 约 简 

从 NDFA 构造 一 个 确定 的 FSA 的 最 后 一 步 是 将 它 约 简 ， 使 之 状态 数目 最 少 。 尽 管 这 一 步 
实际 上 是 FSA 确定 化 工作 的 一 部 分 ,但 这 种 有 益 的 想法 却 往往 有 助 于 将 扫描 程序 压缩 到 一 个 易 
于 管理 的 规模 。 约 简 FSA 的 方法 是 定义 状态 的 等 价 类 ; 其 中 ,两 个 状态 被 指派 到 同一 等 价 类 的 
条 件 是 FSA 在 这 两 个 状态 中 表现 出 同样 的 行为 ， 即 对 每 一 个 给 定 的 部 分 串 ， 如 果 FSA 从 这 两 
个 状态 之 一 出 发 可 识别 该 种 ， 则 它 从 另 一 状态 出 发 也 将 识别 该 串 ， 反 之 亦 然 。 开 始 时 ， 我 们 将 
状态 分 为 两 个 等 价 类 ， 其 中 惟一 的 区 别 是 状态 是 否 是 终结 的 ， 如 图 3-14 所 示 。 在 这 两 个 等 价 类 
中 ， 停 机 状态 识别 空 串 ， 而 其 他 状态 无 法 识别 。 

只 要 可 找 出 同一 等 价 类 中 的 两 个 状态 沿 同一 单词 出 发 的 变迁 转 入 两 个 不 同 的 等 价 类 ， 这 就 
意味 着 在 该 单词 作为 下 一 输入 的 格局 中 ，FSA 对 剩余 输入 串 的 反应 有 所 不 同 ， 至 少 存 在 一 个 子 
串 使 得 一 个 状态 最 终 接受 它 ， 而 另 一 状态 最 终 拒 绝 它 ， 因 而 它们 分 属 不 同 的 等 价 类 。 上 一 例子 
在 第 一 次 细 分 后 ， 所 有 停机 状态 均 沿 a 转 入 男 一 等 价 类 ， 均 沿 b 转 入 其 自身 ， 因 而 没有 区 别 。 
然而 ， 非 停机 等 价 类 中 状态 ATE a ARAB (位 于 本 等 价 类 中 )， 而 状态 B 和 BE 则 会 阻塞 ; 
尽管 这 三 个 状态 沿 b 到 达 停 机 等 价 类 中 的 一 个 状态 ， 但 它们 沿 a 出 发 的 变迁 有 所 区 别 。 
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m—— mms ee ee ees ee ee ee 
*ADF BE ADEFH 

*ADEFH| BE . ADEFH 
*DGH BE DEGH 


*DEGH | BE DEFGH 
*DEFGH| BE DEFGH 
图 3-14 约 简 一 个 确定 的 FSA。 先 将 状态 划分 为 两 个 等 价 类 : 停机 与 不 停机 《图 a)。 在 任 一 等 价 类 
rp, 若 对 某 一 特定 输入 某 些 状态 阻塞 而 另 一 些 状态 不 阻塞 , 则 可 进一步 细 分 该 等 价 类 (图 b)。 
若 同一 等 价 类 中 的 状态 沿 同一 输入 符号 存在 变迁 转 入 两 个 不 同 的 等 价 类 , 则 这 些 状 态 亦 可 细 
分 〈 图 c)。 不 存在 进一步 细 分 时 ， 每 一 等 价 类 就 是 约 简 后 的 FSA 中 的 一 个 状态 (图 d) 


在 此 细 分 之 后 ， 可 观察 到 停机 等 价 类 中 的 状态 CF 沿 a 转 入 包含 状态 A 的 等 价 类 ， 而 所 有 
其 他 的 停机 状态 则 转 入 此 时 位 于 另 一 等 价 类 的 状态 BE, 因而 找 出 状态 CF 并 将 其 单独 作为 一 个 
等 价 类 。 所 有 等 价 类 的 细 分 都 基于 等 价 类 边界 之 间 的 变迁 。 

当 不 再 有 等 价 类 可 进一步 细 分 时 ， 称 FSA 是 约 简 的 。 图 3-14 所 示 的 例子 中 ， 未 约 简 的 表 
格 中 最 后 5 个 状态 沿 输入 单词 b 前 进 到 3 个 不 同 状 态 ， 但 这 3 个 状态 均 在 同一 等 价 类 中 ， 基 于 
这 一 点 找 不 出 它们 之 间 的 任何 区 别 。 因 而 可 得 出 结论 ， 约 简 的 FSA 有 4 个 状态 。 为 清晰 起 见 ， 
图 3-14 最 后 一 幅 图 中 重新 命名 了 状态 。 

为 一 个 扫描 程序 花费 工夫 去 约 简 其 FSA 未 必 是 合算 的 。 等 价 状态 通常 是 用 于 定义 一 个 扫描 
程序 的 正则 表达 式 中 的 选择 运算 所 产生 的 结果 。 像 Modula-2 这 类 典型 程序 设计 语言 的 扫描 程 
序 ， 可 能 在 总 数 为 0 一 200 个 的 状态 中 会 产生 十 多 个 等 价 状态 。 


3.8 将 自动 机 转换 为 文法 


尽管 在 构造 一 个 编译 程序 时 很 少 有 理由 这 样 做 ,但 有 意思 的 是 有 人 穷 状 态 自 动机 可 以 很 简单 
地 转换 为 一 个 等 价 的 文法 。 可 反 过 来 直接 应 用 从 文法 构造 一 个 FSA 的 规则 。 对 每 一 变迁 : 
6(A,x)=B 
可 在 文法 中 写 出 一 条 产生 式 : 
A —xB 
对 每 一 停机 状态 FE， 再 在 文法 中 添加 一 条 产生 式 : 
Foe 
将 这 一 构造 过 程 应 用 到 图 3-14 中 约 简 的 FSA， 可 得 如 下 右 线 性 文法 的 9 条 产生 式 ; 
A—aB Ca^ D -aB 


二 
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A>bD C>bD D>bD 
B -bC Cot Dt 
用 规则 R.5 将 C 和 D 的 空 产生 式 回 代 对 它们 的 引用 ， 可 得 正则 文法 ; 
G=({a,b},{ A,B,C,D},P,A) 
其 中 ，P 是 如 下 产生 式 集 合 : 


A 一 4aB C 一 4A D—aB 
A>bD C>bD D >bD 
A >b C >b D >b 
B>bC B >b 


因为 已 有 方法 从 正则 文法 构造 一 个 正则 表达 式 ， 因 而 有 可 能 在 正则 文法 、 正 则 表达 式 、 确 
定 的 有 穷 状态 自动 机 三 者 中 从 其 中 一 种 形式 转换 为 男 一 种 等 价 的 形式 。 通常 我 们 从 正则 文法 或 
正则 表达 式 入 手 ， 根 据 它 构造 一 个 FSA。 


3.9 左 线性 文法 


到 目前 为 止 , 我 们 仅 关 注 右 线 性 文法 和 右 正 则 文法 , 但 偶尔 也 有 必要 处 理 一 个 左 线性 文法 ， 
通常 是 将 它 转换 为 一 个 等 价 的 右 线 性 文法 。 完 成 这 一 工作 的 最 简单 算法 是 应 用 表 3-4 中 规则 
R.1—R.3 的 镜像 ， 先 将 左 线性 文法 转换 为 一 个 正则 表达 式 ， 然 后 〈 若 有 必要 ) 按 常规 方法 将 正 
则 表达 式 转 回 一 个 右 线 性 文法 或 正则 文法 。 

这 些 镜 像 规 则 意识 到 ， 在 一 个 左 线性 文法 中 ， 每 一 产生 式 右 部 的 非 终 结 符 均 出 现在 左 端 ; 
A 3-6 简要 总 结 了 这 些 规则 。 注 意 ， 规 则 L.2 仅 用 于 将 左 线性 文法 转换 为 正则 表达 式 ， 从 婴 套 
的 迭代 运算 符 转换 为 一 个 文法 时 ， 需 要 另 一 个 非 终结 符 ， 如 表 3-3 所 示 。 


表 3-6 将 左 线 性 文法 转换 为 正则 表达 式 


规则 # 文法 的 产生 式 正则 表达 式 的 产生 式 





3.10 在 计算 机 上 实现 有 穷 状 态 自 动机 


大 多 数 编译 程序 的 实现 是 一 个 传统 计算 机 上 的 程序 。 尽 管 我 们 采用 编译 程序 生成 工具 从 文 
法 和 正则 表达 式 直 接 构 造 大 多 数 编译 程序 , 但 了 解 如 何 根据 同一 文法 以 手工 方式 构建 一 个 扫描 
程序 也 会 带 来 启示 。 实际 上 , 有 必要 学 习 的 只 是 如 何 将 有 穷 状 态 自动 机 实现 为 一 个 计算 机 程序 ， 
因为 从 文法 或 正则 表达 式 转 换 为 FSA 的 每 一 步骤 都 是 已 知 的 。 

计算 机 是 一 个 带 输 出 的 有 穷 状 态 自动 机 。 现 在 暂时 忽略 输出 ， 我 们 可 观察 到 输入 “ 带 ” 实 
际 上 就 是 终端 键盘 〈 或 是 当前 通过 本 地 或 远程 连接 的 所 有 输入 键盘 的 集合 )。 为 简化 起 见 ， 假 
设 只 有 单个 本 地 的 键盘 。FSA 无 法 在 输入 带 上 回头 , 计算 机 亦 无 法 “ 回 卷 ”或 退回 键盘 的 输入 ; 
一 旦 从 键盘 读 入 了 一 个 字符 ， 它 就 不 再 可 用 。 

作为 一 个 FSA 的 计算 机 ， 其 字母 表 2 是 在 键盘 上 可 键入 的 所 有 字符 的 集合 ， 再 加 上 一 个 特 
殊 符 号 “"” 表 示 输 入 条 件 “ 尚 未 键入 任何 东西 "。 由 于 计算 机 远 快 于 在 键盘 上 击 键 的 人 ， 由 键 
盘 表 示 的 输入 带 的 大 部 分 将 由 符号 “。” 填 充 。 当 操作 人 员 输 入 The quick brown fox ... 
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时 ， 计 算 机 将 看 到 类 似 如 下 的 输入 带 : 


90000000rno00000040040000 99000700000, 0000 j 000000,,0000), 0000 


9000010000000 ,,0000400000, ,; 


计算 机 中 所 有 寄存 器 、 内 存 、 联 机 磁盘 存储 器 等 均 可 用 于 状态 的 编码 ， 这 导致 可 能 的 状态 
数目 多 得 难以 置信 : 不 计 寄 存 器 和 磁盘 存储 器 ， 一 台 内 存 为 1MB 的 计算 机 具有 2595895 (KY 
相当 于 10? 300000 个 可 能 的 状态 。 这 相当 于 在 一 个 1 后 面 有 超过 200 万 个 0， 是 比 宇宙 中 已 知 
的 亚 原子 粒子 数目 还 多 出 很 多 倍 的 惊人 天 文 数 字 。 因 而 ， 仅 仅 以 有 穷 状 态 自 动机 的 观点 思考 一 
台 普 通 的 计算 机 并 不 会 带 来 什么 特别 的 指导 意义 。 

然而 ， 可 为 计算 机 编程 以 模仿 一 个 小 得 多 的 FSA。 一 台 运 行 不 带 输出 的 非 递归 计算 机 程序 
的 计算 机 也 是 一 个 有 穷 状态 自动 机 。 程 序 中 的 所 有 变量 ， 加 上 程序 计数 器 (硬件 中 的 当前 指令 
地 址 )， 一 起 编码 为 状态 ; 常量 和 可 执行 的 代码 合 在 一 起 表示 变迁 规则 ， 起 始 状态 是 程序 首次 
开始 执行 第 一 条 指令 时 的 状态 。 我 们 时 常 听 到 程序 的 变量 在 程序 启动 时 有 “未 定义 的 ”内 容 这 
种 说 法 ， 事 实 上 这 意味 着 这 些 内 容 将 由 内 存 中 的 上 一 程序 定义 ， 或 意味 着 程序 员 未 被 告知 这 些 
内 容 是 什么 。 在 某 种 程度 上 这 一 说 法 是 正确 的 ， 因 而 我 们 可 能 必须 留意 到 含有 未 初始 化 变量 的 
某 一 特定 程序 的 起 始 状 态 会 略 有 不 同 ， 这 取决 于 在 运行 程序 之 前 内 存 中 有 什么 东西 。 

我 们 用 更 少 的 状态 信息 构造 一 个 扫描 程序 的 FSA: 一 个 枚 举 类 型 的 变量 。 枚 举 类 型 列 出 了 
FSA 的 所 有 可 能 的 状态 ， 变 量 则 恰好 是 这 些 状 态 的 编码 ， 除 此 之 外 别 无 含义 。 为 简便 起 见 ， 我 
们 根据 FSA 的 表格 表示 构造 这 一 程序 ,并 用 程序 中 的 一 个 数组 显 式 地 保存 这 一 表格 。 该 数组 形 
式 上 是 一 个 变量 ， 但 由 于 它 被 初始 化 后 在 程序 执行 过 程 中 不 会 改变 ， 因 而 它 并 不 表示 状态 。 我 
们 使 用 一 个 布尔 变量 标记 FSA 的 终止 ， 当 程序 正在 运行 时 它 总 为 TRUE， 因 而 它 也 没有 表示 状 
态 信息 。 一 个 临时 变量 保存 了 当前 的 输入 符号 ,但 其 长 度 仅 够 用 于 检索 状态 表 ， 尽 管 它 其 实 是 
状态 信息 的 一 部 分 ， 但 该 程序 并 未 按 此 方式 使 用 它 。 

采用 Modula-2 语言 编写 的 程序 如 代码 清单 3.1 所 示 ， 其 中 给 出 了 图 3-1 的 FSA 的 必要 组 成 
部 分 。 枚 举 类 型 State 指出 FSA 的 所 有 可 能 的 状态 , BI AA 和 BB. 当前 状态 变量 Currentstate 
属于 类 型 State. Xm FSA 的 全 部 状态 。 数 组 Nextstate 是 状态 变迁 规则 的 编码 。 从 模块 
ReadInputTape 导入 的 枚 举 类 型 Alphabet 指明 所 有 的 输入 符号 。 停 机 状态 显 式 地 列 在 常量 

合 HaltStates 中 。 
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代码 清单 3.1 ”一 个 简单 的 有 穷 自动 机 的 Modula-2 实现 


MODULE ReadInputTape; 
EXPORT 

Alphabet, atEnd, nextInput; 
TYPE 

Alphabet - (a, d); 
PROCEDURE atEnd: BOOLEAN; 
PROCEDURE nextInput: Alphabet; 
END ReadInputTape. 


MODULE FSA; 

FROM ReadInputTape IMPORT 
Alphabet, atEnd, nextInput; 

FROM InOut IMPORT 
WriteString; 
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TYPE 

State - (AA, BB); 
CONST 

HaltStates = State{BB}; 
VAR 


CurrentState: State; 

notDone: BOOLEAN; 

theInputToken: Alphabet; 

NextState: ARRAY State, Alphabet OF RECORD 
isValid: BOOLEAN; 
theState: State; 

END; 


PROCEDURE InitializeTable; 


BEGIN 
NextState[AA, a].isValid := TRUE; 
NextState[AA, d].isValid := FALSE; 
NextState[BB, a].isValid := TRUE; 
NextState[BB, d].isValid := TRUE; 
NextState[AA, a].theState := BB; 
NextState[BB, a].theState := BB; 
NextState[BB, d].theState := BB; 





END InitializaTable; 


BEGIN (* FSA 程序 *) 
InitializeTable; 
CurrentState := AA; 
notDone := TRUE; 
WHILE notDone DO 
IF atEnd() THEN 
notDone := FALSE; 
IF CurrentState IN HaltStates THEN 
WriteString('Accept') 


ELSE 
WriteString('Reject') 
END 
ELSE 
thelnputToken := nextInput(); 
notDone := NextState[CurrentState, theInputToken].isValid; 
IF notDone THEN 
CurrentState := NextState[CurrentState, theInputToken] .theState 
ELSE 
WriteString('Reject') 
END 


END (* IF atEnd *) 
END (* WHILE notDone *) 
END FSA. 


该 程序 使 用 了 两 个 函数 过 程 ， 但 并 未 声明 它们 ， 其 目的 分 别 是 从 输入 带 读 入 下 一 个 符号 ， 
以 及 确定 输入 是 否 已 到 达 结 尾 。 从 程序 中 可 看 出 ， 它 们 与 类 型 Alphabet 一 起 从 模块 
ReadInputTape 导入 。 

该 程序 有 三 种 可 能 的 终止 方式 。 如 果 在 表 NextState 中 ， 当 前 状态 和 输入 单词 没有 合法 
的 变迁 ，FSA 阻塞 并 拒绝 输入 串 ， 如 果 到 达 输 入 串 结尾 (函数 atEnd 返回 TRUE) H FSA 处 
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代码 清单 3.1 并 不 是 以 程序 
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于 停机 状态 ， 则 接受 输入 串 ， 如 果 到达 输入 串 结尾 而 FSA 不 处 于 停机 状态 ， 则 拒绝 输入 串 。 程 


序 中 的 主 循环 测试 这 三 种 终止 条 件 ， 如 果 不 成 立 则 沿 输入 符号 前 进 到 下 一 状态 。 每 次 经 过 主 循 
环 〈 最 后 一 次 除外 ) 都 读 入 恰好 一 个 输入 符号 ， 并 恰好 前 进 一 个 状态 变迁 。 


而 言 则 几乎 总 是 ) 关注 执行 效率 ， 因 而 我 们 寻找 改进 其 性 能 的 途径 ， 同 时 又 不 降低 设计 的 严密 
循环 可 改进 为 类 似 如 下 的 代码 ; 


设计 语言 编写 FSA 的 最 有 效 实现 。 由 于 我 们 通常 (对 扫描 程序 
性 。 第 一 种 同时 也 是 最 显然 的 方法 是 在 变量 CurrentState 中 包含 非法 变迁 的 信息 ， 从 而 只 
CurrentState 
END; 


WHILE (CurrentState «» ErrorState) AND NOT atEnd() DO 
(* WHILE *) 
IF CurrentState 


需 一 次 查 表 。 具 体 做 法 是 定义 一 个 或 多 个 状态 表示 出 错 状态 ， 并 在 表 中 删除 记录 的 定义 (因为 
不 再 需要 布尔 类 型 的 字段 ); WIR PSA 进入 了 出 错 状态 ， 这 表明 形式 化 FSA 已 阻塞 。 因 此 ， 主 


= NextState[CurrentState, nextInput()] 
- ErrorState THEN 

WriteString('Reject') 
ELSIF CurrentState IN HaltStates THEN 
WriteString('Accept') 
ELSE 

WriteString('Reject') 
END 
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展示 了 改进 的 结果 。 


从 计算 的 观点 看 ， 查 表 〈 特 别 是 二 维 表 ) 是 相当 费时 的 。 在 某 些 计算 机 上 ， 可 将 这 个 表 编 码 为 


程序 代码 ， 以 大 幅度 改进 性 能 。 这 使 得 程序 更 大 且 更 难 构造 , 但 节省 了 执行 时 间 。 代码 清单 3.2 
代码 清单 3.2 将 有 穷 自 动机 的 变迁 编码 为 程序 代码 
MODULE FSA; 
FROM ReadInputTape IMPORT 
Alphabet, atEnd, nextInput; 
FROM InOut IMPORT 
WriteString; 
TYPE 
State = (AA, BB, ErrorState); 
CONST 
HaltStates - 
VAR 


State{BB}; 

CurrentState: State; 
notDone: BOOLEAN; 

BEGIN 


(* 不 再 需要 *) 

theInputToken: Alphabet; 
(* FSA 程序 *) 

CurrentState := AA; 
WHILE (CurrentState «» ErrorState) AND NOT atEnd() DO 
theInputToken := nextInput (); 
CASE CurrentState OF 
AA: 


CASE theInputToken OF 
a: 


(* 读 入 输入 带 *) 
CurrentState := BB 


(* 状态 AA 的 分 支 情况 *) 
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d: 
CurrentState :- ErrorState 
END | 
BB: (* 状态 BB 的 分 支 情况 *) 
CASE theInputToken OF 
a, d: 
CurrentState :- BB 
END 


END (* CASE CurrentState *) 

END; (* WHILE *) 

IF CurrentState - ErrorState THEN 
WriteString('Reject') 

ELSIF CurrentState IN HaltStates THEN 
WriteString('Accept') 

ELSE 
WriteString('Reject') 

END (* IF Accept/Reject *) 

END FSA. 


CASE 语句 相当 于 机 器 语言 的 查 表 ,但 这 有 两 个 优点 : BE, case 表 是 一 维 的 ， 通 常 效 率 
Bae; 其 次 ， 许 多 分 支 情况 退化 为 代码 ， 会 比 写成 IF-THEN-ELSE 语句 更 高 效 。 例 如 ， 状 态 
BB 的 代码 根本 不 做 任何 判断 (对 所 有 输入 仍 留 在 状态 BB)， 因 而 它 可 替换 为 空 语句 ， 类 似 地 ， 
状态 AA 只 需 对 输入 单词 测试 一 次 ， 判 断 它 是 否 单词 a: 


CASE CurrentState OF 





AA: (* 状态 AA 的 分 支 情况 *) 
IF theInputToken = a THEN 
CurrentState :- BB 
ELSE 
CurrentState :- ErrorState 
END | 
BB: (* 状态 BB 不 做 任何 事情 *) 


END (* CASE CurrentState *) 


FSA 的 状态 本 身 可 编码 为 程序 计数 器 ， 以 取得 最 佳 运行 速度 。 结 果 是 程序 代码 不 仅 表示 了 
状态 变迁 表 , 还 表示 了 FSA 的 状态 ， 从 而 可 消除 测试 状态 变量 的 cASE 语句 ， 代 之 以 复制 的 代 
码 。 程 序 又 再 变 得 更 大 、 但 更 快 ， 这 是 计算 机 程序 设计 中 用 空间 换取 时 间 ( 反 之 亦 然 〉 的 常见 
折 中 。 代码 清单 3.3 展示 了 这 一 改进 。 注意 , 这 一 改进 丝毫 没有 和 危及 FSA 定义 的 形式 化 正确 性 : 
输入 字母 表 仍 是 相同 的 ， 状 态 名 字 仍 是 完全 可 识别 的 (只 是 此 时 用 注释 标记 了 代表 该 状态 的 代 
码 段 )， 变 迁 表 也 像 代 码 清单 3.2 一 样 编码 在 程序 代码 中 。 


代码 清单 3.3 ”将 有 穷 自 动机 的 状态 编码 为 程序 计数 器 





MODULE FSA; 

FROM ReadInputTape IMPORT 
Alphabet, atEnd, nextInput; 

FROM InOut IMPORT 


WriteString; 
TYPE 

State - (AA, BB, ErrorState); 
CONST 


HaltStates = State{BB}; 


IR AER OE BE 59 


1 


VAR 
CurrentState: State; 
notDone: BOOLEAN; (* 不 再 需要 *) 
theInputToken: Alphabet; (* 不 再 需要 *) 
BEGIN (* FSA 程序 *) 
IF atEnd() THEN (* 从 状态 AA 开始 *) 
WriteString('Reject') (* 状态 AA 不 是 停机 状态 *) 
ELSIF nextInput() «» a THEN (* 在 状态 AA 读 入 输入 带 *) 
WriteString('Reject') (* 错误 输入 导致 阻塞 *) 
ELSE (* 前 进 到 状态 BB *) 


WHILE NOT atEnd() DO 
IF nextInput() IN Alphabet{a, d) THEN 
END (* 仅 在 状态 BB 读 入 输入 *) 
END; (* WHILE *) 
WriteString('Accept') 
END (* 状态 BB 结束 *) 

END FSA. 

将 状态 编码 为 程序 计数 器 的 一 个 难点 是 一 个 任意 的 FSA 需要 GoTo 188] A — T SENS 
一 状态 。 这 对 大 多 数 计算 机 的 机 器 语言 都 不 成 问题 ， 但 现代 程序 设计 语言 不 鼓励 在 源 程序 中 使 
用 coro 语句 。 上 述 的 简单 例子 很 幸运 ， 仅 用 一 个 rF-THEN-ELSE 结构 即 可 实现 ， 但 在 一 般 
情况 下 这 是 不 可 能 的 。 此 外 ， 以 手工 方式 正确 地 编写 代码 实现 这 样 的 FSA 是 相当 困难 的 , 我 们 
往往 只 寄 望 于 一 个 “扫描 程序 一 编译 程序 ”完成 此 项 任务 。“ 编 译 程序 一 编译 程序 ”的 输入 源 
语言 是 一 个 文法 或 正则 表达 式 〈 并 非 像 Modula-2 这 类 程序 设计 语言 的 代码 )， 因 而 使 用 coro 
语句 不 成 问题 。 

乍 看 起 来 ， 代 码 清 单 3.3 好 像 只 是 直接 改写 了 定义 语言 的 正则 表达 式 ， 在 这 一 例子 中 的 确 
如 此 。 然而 在 更 普遍 的 情况 下 , 识别 一 个 简单 正则 表达 式 所 定义 的 语言 的 确定 FSA 可 能 并 不 简 
单 ， 并 且 程 序 的 构造 过 程 也 远 远 没有 这 么 直接 。 例 如 ， 一 个 识别 正则 表达 式 (a1b )*aaba 所 
定义 的 语言 的 识别 程序 中 ， 用 一 个 简单 的 WEILE 循环 作为 程序 的 开头 显然 是 不 够 的 。 为 该 正 
则 表达 式 构造 一 个 正确 的 识别 程序 将 留 作 练 习 。 


3.11 ”扫描 程序 的 特殊 实现 问题 


涉及 真实 的 扫描 程序 实现 时 ， 会 遇 到 三 个 未 正式 强调 的 特殊 问题 。 
3.11.1 输入 字母 表 的 大 小 

第 一 个 问题 与 输入 字母 表 的 大 小 有 关 。 在 一 个 典型 的 扫描 程序 FSA 中 ， 状 态 的 数目 约 为 
60 个 左右 ; 如 果 将 整个 ASCH 字母 表 用 作 输 入 ， 将 有 128 个 字符 。 结 果 是 扫描 程序 的 表格 将 
有 8 000 个 入 口 ， 直 接 的 代码 实现 将 会 更 大 。 这 对 一 台大 型 机 可 能 是 可 接受 的 ， 但 当今 许多 更 
小 的 计算 机 却 不 可 接受 。 

解决 这 一 问题 的 常见 途径 是 定义 字符 的 等 价 类 ， 从 而 所 有 数字 处 理 起 来 好 像 是 输入 字母 表 
中 的 单个 符号 一 样 ， 所 有 字母 (字母 B 除外 ， 它 用 在 实数 常量 的 表示 中 ) 作为 另 一 类 ; 语言 中 
未 有 特定 含义 的 所 有 特殊 符号 《例如 重音 符 “、 ”很 少 指定 为 语言 中 的 字符 》 也 作为 字母 表 中 
的 单个 符号 。 这 通常 可 将 字母 表 压缩 到 不 足 原 大 小 的 一 半 ， 其 代价 是 一 次 小 的 查 表 。 

图 3-1 中 FSA 的 字母 表 仅 有 2 个 符号 : a 和 d， 如 果 将 它们 分 别 理解 为 字母 和 数字 的 等 价 
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类 集合 ， 易 见 该 机 器 识别 Modula-2 语言 (或 Pascal 语言 ) 的 所 有 标识 符 ， 标 识 符 必 须 以 字母 
开头 ， 然 后 可 以 有 任意 数目 的 字母 和 数字 。 将 ASCII 字符 集 转换 为 一 个 该 FSA 适用 的 字母 表 ， 
则 该 表 将 有 128 个 单字 节 的 入 口 ， 每 一 入 口 要 么 包含 枚 举 常量 a 或 4， 要 么 包含 某 一 其 他 符号 
(将 被 识别 为 错误 )。 

3.11.2 扫描 程序 自动 机 中 的 停机 状态 

第 二 个 实现 问题 势必 涉及 识别 单词 串 的 结尾 。 迄 今 为 止 ， 有 穷 状态 自动 机 的 每 一 实现 都 调 
用 了 一 个 未 定义 的 函数 atgna() 以 确定 输入 串 的 结尾 。 然 而 在 实际 应 用 中 ， 这 样 的 函数 并 不 
存在 ， 扫 描 程序 自身 有 义务 确定 一 个 单词 的 结尾 。 

考虑 从 正则 表达 式 d d 构建 的 一 个 扫描 程序 ， 如 果 它 读 进 输入 串 12435 时 会 发 生 什么 ? 
如 果 扫 描 程序 期 望 找 出 两 个 整数 常量 ， 第 一 个 结束 和 第 二 个 开始 的 位 置 在 哪里 ? 可 能 是 124 后 
面 跟 着 35, 或 12 后 面 跟着 43$， 亦 或 只 是 单个 整数 12435。Pascal 语言 和 Modula-2 语言 不 多 
许 出 现 这 种 情况 ， 要 求 相 邻 的 数字 和 标识 符 之 间 有 一 个 或 多 个 空格 。 但 问题 仍 存在 : FSA 在 何 
处 停止 读 进 输入 字符 并 停机 ? 

这 一 问题 仅 限于 在 一 个 有 转 出 变迁 的 停机 状态 中 如 何 识别 输入 串 的 结尾 ,通常 有 两 种 解决 
方案 。 一 种 解决 方案 是 每 次 读 入 时 ， 将 下 一 输入 符号 放 到 一 个 缓冲 变量 中 ， 然 后 在 每 一 个 有 转 
出 变迁 的 停机 状态 查看 缓冲 变量 ， 检 查 下 一 符号 是 否 能 使 这 些 变迁 中 的 某 一 个 发 生 。 如 果 能 则 
读 入 符号 并 执行 变迁 ， 否 则 停机 。 

另 一 解决 方案 更 通用 , 完全 忽略 停机 状态 , FSA 一 直 运 行 , 直至 遇 到 某 一 输入 字母 后 阻塞 。 
若 此 时 FSA 处 于 一 个 终结 状态 , 则 停机 并 接受 该 输入 串 ; 否则 , 拒绝 输入 串 。 在 这 两 种 情况 下 ， 
均 须 保存 导致 阻塞 的 字符 ， 并 用 它 启 动 FSA 识别 下 一 单词 。 

这 两 种 方法 均 未 能 检测 错误 的 串 123abc, 而 是 报告 找到 一 个 数字 , 后 面 还 接着 一 个 标识 符 。 
3.11.3 ”过 滤 空 格 与 注释 

在 大 多 数 语言 中 , 注释 和 空格 并 不 是 单词 , 扫描 程序 在 扫描 时 会 从 源 程序 文本 中 删除 它们 ， 
而 不 会 将 它们 报告 给 分 析 程 序 。 在 Pascal 语言 和 Modula-2 语言 中 ， 注 释 可 出 现在 “允许 空格 
字符 出 现 的 任何 地 方 ”( 在 字符 串 常量 中 除外 )， 并 且 具 有 与 空格 字符 相同 的 语义 值 。 

可 为 注释 编写 一 个 正则 表达 式 或 正则 文法 ， 但 识别 出 的 注释 的 语义 动作 是 空 的 。 类 似 地 ， 
也 可 为 空格 字符 编写 简单 的 正则 表达 式 或 正则 文法 。 通 过 将 空格 字符 的 正则 表达 式 附加 到 一 个 
单词 的 复合 正则 表达 式 的 最 前 面 ， 扫 措 程 序 可 显 式 地 支持 空格 并 删除 这 些 空格 。 考 虑 如 下 正则 
表达 式 定 义 的 Modula-2 单词 的 子 集 : 

T.I a(ald)* | dd* | "(" | "hd Meh pom qoem 

该 正则 表达 式 定 义 了 一 个 由 标识 符 、 正 整数 常量 、 圆 括号 以 及 整数 加 法 、 减 法 和 乘法 运算 

符 等 组 成 的 集合 。 加 上 注释 和 空格 的 规格 说 明 后 ， 结 果 如 下 所 示 : 


T.2 ( "n mW lc )* (a ( a | d )* | dd* | "(" | ")" l na" | wom | nx ) 
SOA, c 是 注释 的 正则 表达 式 。 因 而 ， 任 意 数目 的 空格 字符 和 注释 可 以 按 任 意 次 序 出 现在 任何 
其 他 单个 单词 之 前 。 


对 于 Pascal 和 Modula-2 这 类 语言 ， 在 单词 的 文法 或 正则 表达 式 中 表达 这 种 设计 是 很 重要 
的 ， 因 为 注释 分 隔 符 采用 了 与 其 他 合法 单词 相同 的 字符 ， 这 会 对 FSA 的 实现 带 来 重大 影响 。 根 
据 含 有 注释 定义 的 正则 表达 式 构造 一 个 确定 的 FSA 时 , 识别 左 括号 的 新 停机 状态 会 与 识别 其 他 
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单字 符 单 词 的 停机 状态 有 所 不 同 ， 如 图 3-15 所 示 。 这 一 新 的 状态 沿 星 号 出 发 有 一 条 变迁 ， 如 果 
沿 该 变迁 走 下 去 ， 会 在 另 一 单词 〈 可 能 是 不 同 的 单 
i) 之 前 组 成 一 个 注释 。 
3.11.4 ”单词 的 输出 

扫描 程序 实现 中 的 最 后 一 个 问题 更 为 重要 ， 并 
且 仪 在 传递 输出 时 才 涉 及 该 问题 。 一 个 扫描 程序 不 
仅 读 入 并 识别 其 输入 串 ， 而 且 还 为 它 识别 的 每 一 合 
法 输入 串 产 生 输 出 的 单词 。 一 个 形式 化 的 有 穷 状态 
自动 机 没有 和 输出， 解决 这 一 问题 的 办 法 是 扩展 FSA 
的 定义 ,为 状态 变迁 添加 语义 动作 ,定义 与 变迁 相关 联 的 0 个 或 多 个 语义 动作 列表 作为 每 一 变迁 
的 组 成 部 分 。 尽 管 在 理论 上 对 语义 动作 的 功能 没有 限制 , 但 实际 上 它们 仅 限 于 收集 一 个 标识 符 或 
字符 串 单 词 中 的 字符 ， 并 为 该 扫描 程序 语言 中 识别 出 的 每 一 个 串 输 出 一 个 单词 符号 。 

再 次 考虑 工 2 中 定义 的 Modula-2 语言 的 单词 的 子 集 ， 它 定义 了 一 个 由 标识 符 、 正 整数 常量 
圆 括号 以 及 整数 加 法 、 减 法 和 乘法 运算 符 等 组 成 的 集合 。 扫 描 程序 会 找 出 这 7 类 单词 中 的 每 一 种 ， 
并 作为 分 析 程 序 输入 字母 表 中 的 惟一 单词 传递 给 分 析 程 序 。 这 可 能 作为 一 个 枚 举 类 型 中 的 值 : 

TYPE 

Token = (id, num, left, right, plus, minus, star); 

将 这 些 单词 的 值 传递 给 分 析 程 序 的 语义 动作 可 添加 到 正则 表达 式 中 的 合适 位 置 。 将 它们 写 

进 正则 表达 式 时 ， 用 元 符号 “ 方 括号 ” 括 住 ， 以 区 别 于 字母 表 中 的 符号 。 结 果 类 似 于 : 
a [id] (a | d )' |d [num] č | "(" [left] | ")" [right] 1 "+" [plus] | "=" [minus] I "*" [star] 
在 同一 语言 的 《〈 右 线性 ) 文法 中 ， 亦 可 用 类 似 方 式 写 进 相同 的 语义 动作 ， 





图 3-15 在 FSA 中 将 注释 与 其 他 单词 分 开 


S 一 aA [Tok = id] A > dA 

S > dN [Tok = num] A 一 aA 

S 一 "( [Tok = left] A 一 E 

S 2 "y [Tok - right] N > dN 

S 9 " [Tok = plus] N > 8 

$ 7 "* [Tok = star] S 29 - [Tok = minus] 


根据 文法 或 正则 表达 式 构造 的 一 个 扫描 程序 FSA 在 其 变 
迁 规则 中 保留 了 语义 动作 , 如 图 3-16 所 示 。 在 Modula-2 这 类 
程序 设计 语言 中 ， 这 些 语义 动作 的 组 成 也 就 是 在 区 分 每 一 类 
单词 的 变迁 上 多 写 一 行 代码 而 已 。 在 基于 表 的 实现 中 ， 开 设 
第 三 个 字段 将 语义 动作 编码 为 在 每 一 变迁 上 待 执行 的 动作 。 
如 果 表 的 入 口 是 一 个 过 程 的 指针 ， 则 当 指 针 不 为 NIL 时 该 过 
程 会 被 调用 ; 如 果 表 的 入 口 是 一 个 枚 举 类 型 的 值 ， 则 可 用 一 
条 CASE 语句 选择 合适 的 语义 动作 ， 如 果 表 的 入 口 是 类 型 
TOKEN 的 一 个 值 ， 可 直接 将 它 赋值 给 输出 的 单词 变量 ， 如 代 
码 清单 3.4 所 示 。 图 3-16 FSA 中 的 语义 动作 (用 

空心 字体 表示 ) 





地 


62 #3 


代码 清单 3.4 ”在 扫描 程序 代码 中 语义 动作 编码 的 三 种 方法 


WHILE notDone DO C 直接 赋值 给 输出 单词 *) 
theInputToken := nextInput(); 
NextToken := NextState[CurrentState, theInputToken].SemanticAction; 
CurrentState :- NextState[CurrentState, thelnputToken].theState; 
WHILE notDone DO (* REAR BARRE *) 
thelnputToken := nextInput(); 
CASE NextState[CurrentState, thelnputToken].SemanticAction OF 
id: 
Stuff (theInputToken) ; (* 参阅 字符 串 表 的 有 关 章 节 *) 
NextToken := id 
num: 
Value := Value * 10 + ORD(theInputToken) - ORD('0'); 
NextToken :- num 
plus: 
NextToken :- plus 
END; (* CASE SemanticAction *) 
CurrentState :- NextState[CurrentState, theInputToken].theState; 
WHILE notDone DO (* 使 用 表 中 的 过 程 指针 *) 
thelnputToken := nextInput(); 
SemProcPtr := NextState[CurrentState, thelnputToken].SemanticAction; 
IF SemProcPtr «» NIL THEN 
SemProcPtr (theInputToken) (* 调用 该 过 程 *) 
END; 


CurrentState :- NextState[CurrentState, theInputToken].theState; 


据 此 ， 我 们 有 一 种 确定 的 方法 将 语义 动作 附加 到 扫描 程序 的 定义 中 。 按 本 书 的 习惯 写法 ， 
我 们 用 方 插 号 括 住 语义 动作 ， 从 而 将 语义 动作 与 纯 文法 区 别 开 来 。 第 4 章 介绍 的 编译 程序 生成 
工具 识别 语义 动作 的 这 一 语法 ， 并 构建 合适 的 目标 代码 处 理 这 些 语义 ;其 中 所 用 的 语义 动作 的 
特定 语法 与 上 述 例子 略 有 不 同 ， 但 这 一 概念 在 本 质 上 是 相同 的 。 编 译 程序 生成 工具 的 其 他 实现 
则 采用 了 不 同 的 表示 法 以 取得 同样 的 效果 ， 但 这 些 区 别 也 主要 体现 在 表示 法 上 。 

注意 , 扫描 程序 的 自动 机 在 任何 一 种 情况 下 , 都 从 其 输入 流 中 读 入 (并 识别 ) 恰好 一 个 单词 ， 
然后 “停机 ”。 扫 撕 程序 停机 意味 着 它 停 止 读 进 输入 ， 并 将 一 个 单词 的 值 返 回 给 分 析 程 序 ， 而 并 
不 是 计算 机 停止 运行 。 扫 描 程 序 识别 的 语言 是 所 有 可 能 的 单词 的 集合 ,每 次 找 出 一 个 串 ， 因 而 在 
一 次 给 定 的 调用 中 , 扫描 程序 不 会 向 前 越过 它 识别 出 的 单个 输入 单词 。 当 分 析 程 序 准备 好 处 理 另 
一 单词 时 ， 它 将 重新 启动 扫描 程序 进入 它 的 起 始 状态 ， 并 在 扫描 程序 停机 时 接收 到 另 一 单词 。 


3.12 ”字符 串 表 的 实现 
当 扫 描 程序 从 任 一 给 定 标识 符 的 特定 拼写 中 抽取 出 单词 的 ia 时 ， 必 须 保留 这 些 拼 写 ， 以 
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备 稍 后 用 于 报错 信息 、 内 存 映像 表 、 模 块 间 链接 等 。 要 求 分 析 程序 来 处 理 这 些 细节 是 低 效 的 ， 
因为 对 标识 符 的 大 多 数 引 用 并 不 会 像 关注 它 在 上 下 文中 的 惟一 性 那样 关注 它 的 拼写 。 编译 程序 
需要 接触 的 输入 文本 中 各 个 字符 的 次 数 越 少 ， 它 就 运行 得 越 快 。 因而， 扫描 称 序 有 义务 保存 标 
识 符 和 字符 捉 常量 的 拼写 ， 并 且 仅 在 有 请 求 时 才 让 它们 可 用 。 这 一 需求 由 一 个 名 为 字符 串 表 的 
数据 结构 实现 。 

一 个 字符 串 表 本 质 上 是 一 个 大 型 的 压缩 字符 数组 ， 其 中 每 -- 标 识 符 和 字符 串 常量 按 首 尾 相 
接 方 式 加 注 标签 并 存储 。 标 签 可 能 包含 长 度 或 终止 符 代 码 ， 也 可 能 含有 搜索 队列 中 下 一 项 目的 
链接 。 变 长 标识 符 处 理 起 来 不 会 有 浪费 ， 所 以 再 也 没有 必要 限制 源 语言 中 标识 符 的 长 度 。 字 符 
串 在 表 中 的 位 置 被 传递 给 分 析 程 序 和 约束 程序 ， 作 为 对 标识 符 的 惟一 引用 ， 因 而 ， 后 续 对 标识 
符 的 相等 比较 只 需 基于 一 个 简单 的 整数 下 标 即 可 完成 ， 而 不 是 费时 的 变 长 字符 品 比 较 。 

当 FSA 读 入 一 字符 时 ,扫描 程序 中 标识 符 对 应 的 语义 动作 代码 将 每 一 个 新 的 字符 保存 到 表 
中 的 下 一 可 用 入 口 。 如 果 随后 发 现 该 标识 符 在 表 中 已 存在 ， 则 只 要 忽略 新 的 入 口 即 可 快速 回收 
空间 ， 如 果 它 真 的 是 一 个 新 的 标识 符 ， 则 指向 表 尾 的 指针 前 进 到 新 字符 串 的 结尾 ， 该 字符 串 被 
链接 到 表 中 。 
3.12.1 基于 线性 查找 的 实现 

在 一 个 最 简单 的 实现 〈 参 阅 代 码 清单 3.5) 中 ， 匹 配 每 一 个 新 字符 串 都 需要 查找 整 张 表 。 由 
于 新 字符 串 在 表 尾 插入 ， 查 找 结果 总 会 以 匹配 成 功 而 告终 ， 可 能 匹配 到 的 就 是 新 字符 串 本 身 。 


代码 清单 3.5 ”以 线性 查找 方式 实现 的 字符 串 表 


CGO 
(* 过 程 Uniqueldent 用 到 的 全 局 声明 *) 


CONST (* 字符 串 结束 代码 *) 
EOS = 0C; (* 每 一 字符 串 以 Eos 为 终结 *) 
VAR 
StringTable: ARRAY [1 .. MaxStrings] OF CHAR; 
TableEnd: INTEGER; (* 新 符号 的 起 点 、 旧 表 的 结尾 *) 
NextStringTableEntry: INTEGER; (* 正在 处 理 的 新 符号 的 结尾 * ) 
PROCEDURE UniquelIdent(): INTEGER; 
VAR 
SearchAt, NewSymbol, StringStart: INTEGER; 
BEGIN 
SearchAt :- 1; 
NewSymbol :- TableEnd; (* 新 字符 串 已 保存 在 表 尾 *) 
StringTable[NextStringTableEntry] := EOS; (* 新 字符 串 的 终结 *) 
WHILE SearchAt < NewSymbol DO (* 不 与 其 自身 进行 字符 串 比 较 *) 
StringStart := Searchat; 
WHILE (StringTable[SearchAt] - StringTable[NewSymbol]) 


AND (StringTable[SearchAt] <> EOS) DO (* 字符 串 比 较 的 循环 *) 
INC (SearchAt); 
INC (NewSymbol) 

END; (* 字符 串 比较 的 循环 *) 


IF (StringTable[SearchAt] = StringTable[NewSymbol]) THEN 
NewSymbol :- StringStart (* 找到 字符 串 *) 
ELSE (* 不 是 这 一 字符 串 ， 前 进 到 下 一 个 *) 


NewSymbol := TableEnd; 
WHILE StringTable[SearchAt] «» EOS DO 


INC(SearchAt) 
END; 
INC(SearchAt) 
END (* 判断 是 否 找到 字符 串 的 IF *) 
END; (* 字符 串 查找 的 循环 *) 
IF NewSymbol = TableEnd THEN (* 将 新 字符 串 添 加 到 字符 串 表 中 *) 
INC (NextStringTableEntry) ; 
TableEnd := NextSTringTableEntry 
ELSE (* 丢弃 新 读 入 的 字符 串 *) 
NextStringTableEntry := TableEnd 
END; (* 添加 新 字符 串 的 IF *) 
RETURN NewSymbol 
END UniqueIdent; 


线性 查找 算法 不 是 特别 快 。 由 于 在 一 个 程序 中 大 量 的 单词 属于 标识 符 ， 我 们 有 充足 的 理由 
寻找 一 些 更 快 的 算法 。 
3.12.2 ”基于 散 列表 的 实现 

符号 表 快速 查找 的 常见 算法 是 “ 散 列 编码 ”。 字 符 串 表 中 的 字符 串 被 划分 为 n(n 是 某 一 个 
较 大 的 数目 ) 个 独立 的 链表 ， 如 图 3-17 所 示 。 所 选 的 数目 通常 应 使 得 中 等 大 小 的 被 编译 程序 可 
将 少量 标识 符 《〈 典 型 情况 是 平均 数 接近 1) 放 到 每 一 个 链表 〈 称 为 散 列 桶 ) 中 ， 链 表 中 的 每 一 
元 素 指向 字符 串 表 中 的 一 个 字符 串 。 


散 列表 散 列 桶 链表 字符 串 表 


identifier string 
word mixed 4 


constant .. \ 


"more konstan 


uu» 





K 3-17 散 列 表 结 构 。 散 列表 (图 a》 是 一 个 指针 数组 ， 由 字符 串 表 (图 c) 中 各 个 字符 串 的 散 列 
函数 值 作为 下 标 。 散 列表 的 每 一 入 口 指向 一 个 散 列 桶 《〈 图 b)， 它 是 一 个 由 字符 串 表 的 下 
标 值 组 成 的 链表 ;一 个 散 列 桶 包含 了 那些 散 列 值 为 散 列表 中 同一 下 标的 所 有 字符 串 的 引用 


散 列 函数 是 一 个 被 设计 为 根据 某 些 数据 (通常 是 组 成 一 个 字符 串 的 字符 ) 计算 得 到 一 个 小 
RF RABI) 的 算法 ， 使 得 散 列 函 数 作 用 于 平均 混合 的 字符 串 时 ， 各 个 散 列 码 会 均匀 分 
布 在 O~n - 1。 两 个 或 多 个 字符 串 散 列 到 同一 下 标 〈 从 而 放 入 同一 桶 中 〉 的 情况 称 为 碰撞 ， 散 
列表 中 出 现 多 个 碰撞 则 会 降低 其 效率 。 当 表 中 的 字符 串 比 桶 的 数目 更 多 时 ， 这 是 无 法 避免 的 ， 
但 将 字符 串 均匀 分 布 到 桶 中 将 使 得 查找 时 间 相 对 较 少 。 

一 个 典型 散 列 函数 的 组 成 是 将 所 有 字符 的 序数 之 和 以 n 取 模 ; 或 将 字符 之 间 的 中 间 和 逐 位 
轮转 ， 以 尽量 减少 相似 符号 的 冲突 。 编 译 程序 设计 人 员 应 记 住 这 样 一 种 常见 的 编程 风格 ， 即 在 
每 一 相关 标识 符 的 前 面 使 用 相同 的 字符 串 ， 这 会 搞 糟 那些 试图 节省 计算 时 间 〔〈 例 如 仅 检查 一 个 
标识 符 的 前 3 个 字符 ) 的 字符 串 表 的 散 列 函数 。 将 序数 之 和 取 模 的 优点 是 只 须 在 最 后 有 一 次 除 
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法 就 足够 了 。 将 正在 处 理 的 中 间 和 再 次 累加 到 新 字符 的 值 会 影响 到 中 间 和 的 逐 位 轮转 ， 仅 当中 


间 和 达到 相当 高 的 阐 值 时 ， 才 有 必要 用 除法 〈 通 常 较 慢 ) 让 它 回 到 指定 范围 。 


不 同 于 线性 查找 算法 须 检 查 整个 字符 串 表 以 判断 每 一 新 扫描 到 的 标识 符 是 否 已 存在， 散 列 
表 仅 须 查 找 单 个 散 列 桶 中 的 字符 串 。 如 果 一 个 散 列 表 的 装载 系数 低 于 50%《〈 即 字符 串 的 总 数 仅 
有 表 中 散 列 桶 数目 的 一 半 )， 查 找 时 间 会 有 效 地 降低 为 常数 。 每 一 标识 符 需 额外 的 时 间 以 计算 
其 散 列 函数 ， 因 而 这 会 影响 其 效率 。 当 扫描 程序 的 状态 处 于 扫描 一 个 标识 符 的 下 一 字符 ， 并 将 


该 字符 累加 到 散 列 码 时 ， 其 代码 可 能 如 下 所 示 : 


thelnputChar := nextInput(); 
CASE SemanticAction[CurrentState, theInputChar] OF 


DoIdentChar: 
HashCode := HashCode + HashCode + ORD(theInputChar); 
IF HashCode » 16000 THEN 
HashCode :- HashCode MOD HashTableSize 
END; 
StringTable[NextStringTableEntry] := theInputChar; 
INC (NextStringTableEntry); 


若 每 一 散 列 桶 中 仅 有 少量 字符 串 需 查找 ， 则 传统 的 字符 串 比较 算法 足以 胜任 。 散 列 桶 采用 
链表 会 比较 浪费 内 存 空间 〈 每 一 标识 符 可 能 花费 了 加 倍 的 空间 )， 改 用 一 个 小 的 整数 数组 构造 
散 列 桶 ， 可 使 这 一 问题 得 到 显著 改进 。 该 数组 的 大 小 只 要 比 散 列 桶 的 平均 大 小 再 多 一 、 两 个 元 


素 即 可 ， 若 有 溢出 需 处 理 则 将 这 些 数组 链接 成 链表 。 代 码 清 单 3.6 并 未 给 出 这 一 扩展 。 


代码 清单 3.6 ”以 散 列 方式 实现 的 字符 串 表 
(* 过 程 uniqueIdent 用 到 的 全 局 声明 *) 


CONST (* 字符 串 结束 代码 *) 
EOS = 0C; (* 每 一 字符 串 以 Bos 为 终结 *) 
HashTableSize = 256; (* 取决 于 可 用 内 存 、 程 序 平均 大 小 *) 
TYPE 
HashBucket = POINTER TO BucketElement;  (* 元 素 的 链表 *) 
BucketElement = RECORD 
theString: INTEGER; (* 字符 串 表 的 下 标 *) 
nextElement: HashBucket (* 指向 散 列 桶 中 下 一 元 素 的 链接 *) 
END; 
VAR 
StringTable: ARRAY [1 .. MaxStrings] OF CHAR; 
TableEnd: INTEGER; (* 新 符号 的 起 点 、 旧 表 的 结尾 *) 
NextStringTableEntry: INTEGER; (* 正在 处 理 的 新 符号 的 结尾 *) 
HashCoc-. INTEGER; (* 新 符号 计算 得 到 的 散 列 码 *) 
HashTable: ARRAY [0 .. HashTableSize] OF HashBucket; 


(* 未 使 用 的 入 口 标记 为 NIL *) 


PROCEDURE UniqueIdent(): INTEGER; 
VAR - 
SearchAt, NewSymbol: INTEGER; 
thisBucket: HashBucket; 
BEGIN 
NewSymbol :- TableEnd; (* 新 字符 串 已 保存 在 结尾 *) 
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StringTable[NextStringTableEntry] := EOS; (* 新 字符 串 的 终结 *) 
HashCode := HashCode MOD HashTableSize; 
thisBucket :- HashTable[HashCode]; 
IF thisBucket - NIL THEN (* 车 不 存在 则 创建 一 个 新 的 桶 *) 
.NEW(thisBucket); 
HashTable[HashCode] :- thisBucket; 
WITH thisBucket^ DO 
theString :- NewSymbol; 
nextElement :- NIL 
END 
ELSE 
WHILE thisBucket «» NIL DO 
WITH thisBucket^ DO 
SearchAt :- theString; 
WHILE (StringTable[SearchAt] = StringTable[NewSymbol]) 
AND (StringTable[SearchAt] <> EOS) DO (* 字符 串 比 较 的 循环 *) 
INC (SearchAt) ; - 
INC (NewSymbol) 
END; (* 字符 串 比 较 的 循环 *) 


IF StringTable[SearchAt] = StringTable[NewSymbol] THEN 
NewSymbol :- theString; (* 找到 字符 串 *) 
thisBucket := NIL 

ELSIF nextElement = NIL THEN  (* 表 中 没有 ， 将 它 添加 该 散 列 桶 中 *) 
NewSymbol := TableEnd; 


NEW (nextElement); 
WITH nextElement^ DO 
theString :- NewSymbol; 
nextElement :- NIL; 
thisBucket :z NIL 
END (* WITH nextElement *) 
ELSE (* 不 是 这 一 字符 串 ， 前 进 到 下 一 个 *) 
NewSymbol := TableEnd; 
thisBucket :- nextElement 
END (* ARK IF *) 
END (* thisBucket 的 WITH *) 
END (* 字符 串 查找 的 循环 *) 
END; 
IF NewSymbol - TableEnd THEN (* 将 新 字符 串 添加 到 字符 串 表 中 *) 
INC (NextStringTableEntry) ; 
TableEnd := NextStringTableEntry . - 
ELSE (* 丢弃 新 读 入 的 字符 串 *) 
NextStringTableEntry := TableEnd 
END; (* 添加 新 字符 串 的 IF *) 
RETURN NewSymbol 
END UniqueIdent; 


3.12.3 ”基于 查找 树 的 实现 

构建 并 保存 一 棵 单词 查找 树 ， 使 得 任 一 字符 串 中 的 每 一 字符 对 应 树 中 的 一 个 结 点 ， 这 显著 
增加 了 复杂 性 与 表 占 用 的 空间 ， 但 性 能 可 略 有 改进 。 这 种 数据 结构 称 为 trie (如 同 retrieval 中 
那样 ， 读 作 tree， 可 能 是 试图 命名 为 一 个 双关 语 )。 每 一 结 点 包含 37 4 CM Modula-2 这 类 大 小 
写 敏感 的 语言 则 为 63 个 ) 链接 指向 下 一 比较 结 点 ;标识 符 中 每 一 个 可 能 出 现 的 字母 或 数字 、 
再 加 上 一 个 终结 符 均 有 一 个 链接 。 然后 字符 串 的 比较 可 与 字符 的 读 入 同时 进行 。 
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扫描 一 个 标识 符 中 的 每 一 字符 时 ， 这 些 字符 将 用 于 检索 当前 的 树 结 点 。 如 果 检 索 到 的 元 素 
指向 下 一 树 结 点 ， 则 该 结 点 成 为 下 一 字符 的 当前 结 点 。 如 果 检 索 到 的 结 点 元 素 指 向 字符 串 表 中 
的 一 个 字符 串 ， 到 目前 为 止 它 是 惟一 的 ， 新 标识 符 的 后 续 字符 将 与 字符 串 表 中 所 选 的 标识 符 进 
行 比较 。 如 果 它 们 不 匹配 , 则 查找 树 扩 展 新 的 分 枝 , 并 且 新 标识 符 继续 添加 到 字符 串 表 的 结尾 。 
在 读 入 标识 符 的 最 后 一 个 字符 之 后 ， 比 较 过 程 也 同时 结束 ， 如 果 是 一 个 新 标识 符 ， 则 它 已 添加 
到 字符 串 表 中 。 

图 3-18 展示 了 这 种 树 的 结构 。 由 于 之 前 提 及 的 常见 标识 符 命名 习惯 , 将 树 限定 在 前 几 个 字 
符 通常 是 不 实用 的 (尽管 这 在 该 查找 算法 的 非 编译 程序 应 用 中 是 常见 的 做 法 )， 因 为 在 这 种 情 
况 下 会 有 大 量 标识 符 产 生 碰 撞 。 代 码 清单 3.7 假设 输入 字符 已 转换 为 字符 编码 ， 其 中 字母 与 数 
字 是 相 邻 的 。 对 标准 ASCH 而 言 , 还 需要 额外 的 转换 (RAR) 步骤 ， 以 减少 结 点 索引 的 范围 。 

查找 树 字符 串 表 
B= 780080088 
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a) — b) 
图 3-18 基于 树 查找 的 字符 串 表 结构 。 沿 查找 树 CIE a) 的 每 一 条 路 径 定义 
TERRA CH b) 中 一 个 标识 符 的 拼写 ， 并 保持 其 惟一 性 。 任 一 
树 结 点 中 的 每 一 字符 下 标 要 么 指向 另 一 结 点 ,要 么 指向 一 个 字符 申 


代码 清单 3.7 ”以 查找 树 实现 的 字符 串 表 


(* 树 查 找 用 到 的 声明 *) 
CONST 


EOS = ';'; (* 字符 串 结束 代码 *) 
TYPE 
TreePointer - POINTER TO TreeNode; 
TreeNode = ARRAY ['0' .. 'z'] OF RECORD 
CASE UniqueHere: BOOLEAN OF 
FALSE: 
NextNode: TreePointer | (* 链接 到 树 中 下 一 结 点 +) 
TRUE : 
theString: INTEGER (* 指向 字符 串 表 的 索引 *) 
END (* 不 同 的 CASE 情况 *) 
END; (* TreeNode *) 
VAR 
theInputChar: CHAR; (* 每 一 字符 串 以 EOS 结尾 *) 
StringTable: ARRAY [1 .. MaxStrings] OF CHAR; 
TableEnd: INTEGER; (* 新 符号 的 起 点 、 旧 表 的 结尾 *) 
NextStringTableEntry: INTEGER; (* 正在 处 理 的 新 符号 的 结尾 *) 


UniqueIdent: INTEGER; (* 返回 的 字符 串 ID *) 
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SearchTree, CurrentNode: TreePointer; 


matchedString, treeDepth: INTEGER; 
newNode: TreePointer; 
charindex: CHAR; 


BEGIN (* 起 始 代码 参阅 以 下 EndIdentifier *) 


theInputChar := nextInput(); 
CASE SemanticAction[CurrentState, thelnputChar] OF 


DoIdentChar: 
StringTable[NextStringTableEntry] :- theInputChar; 
IF matchedString - 0 THEN 
WITH CurrentNode^[theInputChar] DO 


IF UniqueHere THEN (* 到 目前 为 止 是 匹配 的 *) 
matchedString := theString 

ELSIF NextNode - NIL THEN (* 从 此 以 后 是 新 的 字符 串 *) 
matchedString := TableEnd; 
UniqueHere :- TRUE; 
theString :- matchedString; 
CurrentNode :- NIL 

ELSE (* 仍 沿 树 中 匹配 *) 


CurrentNode := NextNode; 
INC(treeDepth) - 
END (* IF UniqueHere EE NextNode = NIL *) 
END (* WITH CurrentNode^[...] *) 
ELSIF CurrentNode «» NIL THEN (* 到 目前 为 止 匹配 旧 的 字符 串 *) 
IF StringTable[NextStringTableEntry - TableEnd 
+ matchedString] <> thelnputChar THEN 
(* 但 不 再 匹配 , 此 时 创建 新 的 分 枝 *) 
WHILE treeDepth < NextStringTableEntry - TableEnd DO 
WITH CurrentNode^[StringTable[matchedString + treeDepth]] DO 


INC (treeDepth) ; 


UniqueHere := FALSE; 
NEW (NextNode) ; 
FOR charindex := '0' TO 'z' DO 


WITH NextNode^[charindex] DO 
UniqueHere :- FASLE; 
NextNode :- NIL 
END (* WITH NextNode^[...] *) 
END; (* FOR *) 
CurrentNode :- NextNode 
END (* WITH CurrentNode^[...] *) 
END; (* WHILE treeDepth *) 
WITH CurrentNode^[StringTable[machtedString « treeDepth]] DO 


UniqueHere :- TRUE; 
theString := matchedString 
END; (* WITH CurrentNode^[...] *) 
WITH CurrentNode*[theInputChar] DO 
matchedString :- TableEnd; 
UniqueHere :- TRUE; 
theString :- matchedString; 


CurrentNode :- NIL 


IHE fo EM ES 69 


END (* WITH CurrentNode^[theInputChar] *) 
END (* 不 再 匹配 的 IF *) 
END; (© 匹配 最 早 的 IF *) 
INC(NextStringTableEntry) 


EndIdentifier: 
IF matchedString - 0 THEN 
WITH CurrentNode^[EOS] DO 
IF UniqueHere THEN (* 与 一 个 已 有 的 字符 串 匹 配 *) 
machtedString :- theString 
ELSE (* 是 一 个 新 字符 串 ， 故 添加 它 *) 
matchedString := TableEnd; 
UniqueHere :- TRUE; 
theString :- matchedString 
END (* IF UniqueHere *) 
END (* WITH *) 

END; (* IF matchedString = 0 *) 

IF matchedString - TableEnd THEN (* 扩展 字符 串 表 ， 以 包含 新 的 串 *) 
StringTable[NextStringTableEntry] := EOS; 
INC(NextStringTableEntry); 

TableEnd :- NextStringTableEntry 


ELSE (* EARBZANLAH *) 
NextStringTableEntry :- TableEnd 

END; (* IF matchedString - TableEnd *) 

UniqueIdent :- matchedString; (* 为 下 一 查找 而 初始 化 *) 

treeDepth := 1; 

CurrentNode :- SearchTree 


3.12.4 ”不同 实现 的 性 能 比较 
K 3-7 给 出 了 三 种 字符 串 表 查找 算法 的 相对 大 小 与 速度 比较 。 


表 3-7 不 同 字 符 串 表 算法 的 相对 性 能 


表 的 大 小 〈 字 节 ) 了 扫描 已 有 的 12 字 节 标识 符 的 时 间 8 
50 个 标识 和 500 个 标识 符 












算 法 









6000 2960 29 060 
5720 


D 假设 平均 字符 串 大 小 为 12 字 节 ， 包 括 终结 符 。 

Q 指 虚 构 的 寄存 器 机 器 的 指令 时 间 ， 假 设 文件 存放 在 内 存 中 。 

O 假设 散 列表 有 100 个 字 ， 每 字 有 4 个 字 节 。 

将 整个 源 程 序 文件 放 在 内 存 中 还 可 进一步 提高 性 能 ， 此 时 不 必 建 立 单独 的 字符 串 表 ， 下 标 
直接 指向 源 代 码 的 数组 即 可 ， 从 而 不 再 需要 字符 移动 以 及 逐一 读 入 字符 的 系统 调用 。 在 许多 计 
算 机 上 ， 文 件 可 作为 一 个 块 直接 快速 地 读 入 到 一 个 内 存 数据 结构 中 ， 文 件 将 在 该 数据 结构 中 被 
使 用 ， 这 一 读 入 过 程 无 需 CPU 的 参与 。 


3.13 REF 
大 多 数 程序 设计 语言 定义 了 一 个 保留 字 的 集合 ， 有 时 也 称 这 些 保留 字 为 “字符 号 ”。 
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Modula-2 语言 中 的 例子 是 PROCEDURE. IF. THEN. END 等 , 但 INTEGER 或 TRUE 却 不 是 CË 
们 只 是 程序 中 可 重新 声明 的 标识 符 而 已 )。 保 留 字 作 为 一 个 字符 号 ， 是 扫描 程序 识别 并 报告 给 
分 析 程序 的 独特 单词 ; 由 于 它们 具有 与 标识 符 相同 的 形式 , 保留 字 成 为 基于 确定 FSA 的 扫描 程 
序 设计 与 实现 中 的 一 个 特殊 问题 。 

略 加 留意 即 可 得 到 同时 识别 标识 符 单词 和 特定 保留 字 单 词 的 一 个 FSA 的 直接 实现 ,识别 到 
一 个 保留 字 时 ,语义 动作 同时 报告 保留 字 单 词 和 通用 的 标识 符 单 词 ， 实 现时 必须 保证 保留 字 单 
词 的 值 更 优先 。 然 而 ， 单 词语 言 中 大 量 保留 字 的 存在 容易 导致 扫描 程序 的 状态 激增 。 

扫描 程序 的 实现 亦 可 不 必 显 式 地 识别 保留 字 。 在 扫描 程序 的 后 端 ， 如 果 识 别 出 一 个 单词 是 标 
识 符 , 则 再 多 用 一 步 测 试 判断 它 是 否 一 个 保留 字 。 如 果 在 扫描 程序 的 前 端 已 预先 将 所 有 保留 字 装 入 
字符 串 表 中 ， 这 一 步 测试 就 无 需 费时 的 表 查 找 过 程 ， 同 时 也 可 从 字符 串 表 的 下 标 恢 复 单 词 的 值 。 单 
词 的 值 可 用 字符 串 表 本 身 的 字符 进行 编码 , 只 要 不 引起 标识 符 匹 配 错误 即 可 : 将 单词 的 值 映射 到 非 
字母 或 数字 的 字符 ， 这 就 不 成 问题 了 。 因 而 ， 在 扫描 程序 最 后 添加 的 代码 只 需 以 下 几 行 : 

IF NextToken = IDtoken THEN 

NextToken :- Token(StringTable[UniqueIdent - 2]) 

END 
其 中 , IDtoken 是 类 型 Token 的 一 个 常量 , 变量 NextToken, StringTable fll UniqueIdent 
的 声明 如 代码 清单 3.7 所 示 。 


3.4 ”使 用 扫描 程序 生成 工具 


现代 编译 程序 很 少 是 以 手工 方式 编写 的 。 分 析 程 序 生 成 工具 用 于 根据 一 个 上 下 文 无 关 文 法 
构造 一 个 分 析 程 序 ， 并 且 每 一 种 分 析 程序 生成 工具 都 有 一 个 配套 的 扫描 程序 生成 工具 。 

本 书 重 点 关注 TAG 编译 程序 ， 它 不 仅 可 构建 一 个 编译 程序 中 的 扫描 程序 和 分 析 程序 ， 而 
且 还 可 包括 约 柬 程序 和 代码 生成 程序 (TAG 是 变换 属性 文法 的 缩写 ， 本 书 稍 后 将 讨论 ;TAG 
编译 程序 的 更 完整 描述 请 参阅 附录 B)。TAG 编译 程序 根据 两 部 分 构造 一 个 扫描 程序 。 第 一 部 
分 是 扫描 程序 文法 ， 这 一 部 分 采用 正则 表达 式 描 述 各 种 带 名 字 的 单词 ， 在 文法 的 合适 地 方 可 加 
入 语义 动作 的 编码 。 扫 描 程序 的 余下 部 分 可 从 分 析 程 序 的 文法 隐 式 地 推导 出 来 。 在 一 个 分 析 程 
序 的 文法 中 ， 大 多 数 单词 可 用 加 引号 的 文字 量 表达 清楚 ，TAG 编译 程序 将 这 些 单词 抽取 出 来 ， 
并 将 它们 添加 到 其 扫描 程序 的 构造 中 。 


小 结 


本 章 讨论 的 内 容 全 部 围绕 着 如 何 开 发 一 个 扫描 程序 。 扫 描 程序 是 某 一 正则 文法 或 正则 表达 式 基于 对 
应 的 有 穷 状态 自动 机 (FSA) 的 一 个 实现 。 通 过 构造 性 方法 ， 我 们 展示 了 每 一 正则 表达 式 和 每 一 正则 文 
法 都 有 一 个 对 应 的 FSA; 同时 用 构造 性 方法 说 明了 每 一 个 由 FSA 接受 〈 或 识别 ) 的 串 的 集合 ， 均 可 表示 
为 一 个 正则 文法 或 正则 表达 式 。 实 际 上 ，FSA 与 正则 表达 式 之 间 存 在 一 种 非常 密切 的 关系 。 

正则 表达 式 是 表示 一 个 字母 表 上 某 一 类 字符 串 的 一 种 简明 表示 法 ， 通 常 可 满足 大 多 数 程序 设计 语言 
的 单词 需求 。 并 运算 、 连 接 运 算 以 及 克 林 星 号 运算 给 正则 表达 式 带 来 丰富 的 变化 。 

本 章 探讨 了 两 种 技术 ,将 一 个 FSA 规格 说 明 机 械 地 转换 为 实现 编译 程序 中 的 扫描 程序 的 程序 设计 语言 代码 。 

最 后 ， 扫 描 程序 借助 于 字符 串 表 存储 标识 符 和 字符 串 常 量 的 拼写 。 字 符 串 表 可 实现 为 一 个 大 型 的 压 
缩 字符 数组 。 本 章 还 讨论 了 更 有 效 地 维护 字符 串 表 的 几 种 方法 。 
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| ”正则 表达 式 的 并 选择) BA, BEE “RR”. 例如， 正则 表达 式 R 和 S 的 并 运算 记 为 1S。 
* 正则 表达 式 的 闭 包 运算 符 〈 称 为 克 林 星 号 )， 读 作 “ 任 意 数目 的 ”或 “0 个 或 多 个 ”。 

L* ” 读 作 “将 语言 自身 连接 任意 次 ”。 

Li RE BER LAMER iK” 

+ “1 个 或 多 个 ”。 

? “0 个 或 1 个 ”。 

A ”变迁 规则 的 有 穷 集 。 

Q ”状态 的 有 穷 集 。 

”文法 或 自动 机 的 字母 表 。 


FSA Finite-State Automation， 有 穷 状态 自动 机 ， 正 则 语言 的 识别 器 。 
FSM Finite-State Machine， 有 穷 状态 机 ， 等 同 于 FSA. 
NDFA Non-Deterministic Finite Automation， 不 确定 的 有 人 穷 自动 机 。 


absorption (WK HE- EUREKA RWE RIR =R 的 代数 定律 ( 亦 称 正则 表达 式 的 社 等 性 质 )。 

accept (接受 ) 
CD 称 语言 L 被 一 个 有 穷 自动 机 M 接受 ， 当 且 仅 当 L 中 每 一 个 串 x MEMES, 
(2) 串 x 被 一 个 有 穷 自 动机 接受 ， 如 果 存 在 一 个 变迁 序列 从 起 始 状态 出 发 、 且 在 一 个 终结 状态 结束 ， 
使 得 变迁 读 入 的 每 一 字符 与 x 中 对 应 的 字符 匹配 。 

alphabet (FER) ”符号 的 集合 ， 其 中 的 符号 组 成 了 语言 中 的 句子 。 

alternation GEHE) ”对 正则 表达 式 R 和 S$，RIS={zxeR, xes}. 

distributivity 分 配 律 ) ”对 任意 正则 表达 式 R、S 和 T 满 足 R(SIT)=RSIRT 的 代数 定律 〈 即 连接 运 
算 对 选择 运算 的 左 分 配 )。 连 接 运 算 符 也 对 选择 运算 右 分 配 。 

empty transition《〈 空 变迁 ) Æ NDFA 中 不 必 读 进 任何 输入 符号 即 可 从 一 个 状态 转 入 另 一 状态 的 变迁 。 

equivalence class (FAX) ”是 一 个 有 穷 状态 自动 机 M 中 的 状态 的 集合 Q. MEMI Q。 中 任意 两 个 
状态 表现 出 相同 的 行为 ， 即 相对 于 任意 的 部 分 串 x, WRM 从 Q, 中 的 g 识别 x， 那么 它 也 将 从 Q 
中 的 g 识 别 x。 

finite automaton 《有 穷 自动 机 ) 
C1) 状态 的 有 穷 集 和 变迁 的 有 穷 集 ， 变 迁 基 于 一 个 字母 表 中 的 输入 符号 从 一 个 状态 转 入 下 一 状态 。 
(2) 五 元 组 (Q, E, ò, qo F)， 其 中 Q 是 状态 的 有 穷 集 ， 是 有 穷 的 字母 表 ，5 是 映射 Qx 三 -> Q，qo 是 

halting state (停机 状态 ) 
(1) 一 个 有 穷 自 动机 到 达 的 状态 ， 此 时 自动 机 已 处 理 了 所 接受 输入 串 的 最 后 一 个 字符 。 
(2) 在 有 穷 自动 机 (Q, E, ò, qo, P) 中 既 属 于 Q 也 属于 F 的 任意 q。 

hash bucket〈 散 列 桶 〉 ”由 一 个 散 列 码 标识 的 一 个 链表 。 

hash code〈 散 列 码 ) ”是 一 个 散 列 函数 的 输出 。 

hash collision 〈 散 列 碰撞 ) ” 指 一 个 散 列 函 数 为 两 个 不 同 的 输入 字符 串 计 算出 相同 的 散 列 码 。 

hash function (RIJAD ”是 从 一 个 输入 字符 串 到 一 个 整数 (典型 情况 是 一 个 小 的 正 整数 ) 的 映射 〈( 通 
常 是 伪 随 机 的 )。 
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iteration GRES) ”正则 表达 式 中 一 个 符号 重复 出 现 。 

regular expression〈 正 则 表达 式 ) “是 一 种 表达 一 个 正则 语言 中 的 字符 串 的 表示 法 ， 用 迭代 、 选 择 、 连 
接 、 圆 括号 等 运算 组 织 起 来 。 

regular language 〈 正 则 语言 ) 
C1) 一 个 可 由 一 个 正则 表达 式 描述 的 语言 。 
(2) 一 个 可 由 一 个 正则 文法 生成 的 语言 。 
(3) 一 个 可 由 一 个 有 穷 状态 自动 机 接受 的 串 的 集合 。 

regular set (IERJSE) ” 即 正则 语言 。 

scanner grammar (扫描 程序 文法 ) ”是 一 个 正则 文法 ， 定 义 了 组 成 一 个 外 部 (文本 ) 字母 表 上 的 所 有 
串 的 集合 ， 这 些 串 形成 了 待 编 译 语言 中 的 单词 。 

semantic action 〈 语 义 动作 ) ”是 一 条 规则 ， 指 定 了 在 识别 出 一 个 串 时 所 执行 的 副作用 。 例 如 ， 将 字符 
串 添加 到 字符 串 表 中 ， 或 定义 一 个 输出 单词 。 

string table (FBR) ”是 扫描 程序 使 用 的 一 种 数据 结构 ， 用 于 保存 标识 符 和 字符 串 常 量 的 拼写 。 


1. 写 出 以 下 语言 的 正则 表达 式 。 

(a) 由 英文 字母 组 成 的 所 有 串 ， 其 中 每 个 串 依 次 包含 了 S 个 元 音字 母 ， 且 每 个 元 音字 母 在 整个 串 中 仅 
出 现 1 次 。 

(b) 由 英文 字母 组 成 的 所 有 串 ， 其 中 每 个 串 由 依次 包含 了 5 个 元 音字 母 的 子 绅 组 成 ， 且 每 个 元 音字 母 
在 整个 串 中 可 出 现 多 次 ; 也 允许 每 个 元 音字 母 在 其 位 置 连续 出 现 多 次 ， 例 如 
bghaaatrasdfeewqprilkohmoooozu 是 一 个 可 接受 的 子 串 〈 因 而 也 是 一 个 可 接受 的 串 )。 

Cc) 由 0 和 1 组 成 的 所 有 串 ， 其 中 每 个 串 有 偶数 个 0 和 奇数 个 1。 

(d) 由 0 和 1 组 成 的 所 有 串 ， 其 中 每 个 串 均 不 包含 子 串 011。 

(e) 由 1、2 和 3 组 成 的 所 有 串 ， 其 中 每 个 串 中 1、2 或 3 出 现 不 超过 1 次 。 

(D 由 1 和 2 组 成 的 所 有 串 ， 其 中 每 个 串 中 1 不 会 重复 ( 即 没 有 子 串 11)， 且 至 少 有 一 个 1 或 2; 不 允 
FATE. 

G) 由 1 和 2 组 成 的 所 有 串 ， 其 中 每 个 串 中 不 会 有 重复 的 数字 〈 即 没有 子 串 11 和 22)， 且 至 少 有 一 
个 1 或 2; 不 允许 有 空 串 。 

Ch) a 和 b 组 成 的 所 有 串 ， 其 中 每 个 串 的 长 度 为 5 个 或 更 少 的 字符 ， 允 许 有 空 串 。 

2. 描述 以 下 正则 表达 式 所 表达 的 语言 。 试 用 自然 语言 的 描述 捕捉 这 些 语言 的 本 质 特 性 ， 而 不 要 简单 地 将 
正则 表达 式 符号 转 为 自然 语言 表达 。 

(a) 0(011)*0 

(b) ((6£10) 1*)* 

Cc) (011)*0(011)(011) 

(d) 0* 10* 10* 10* 

Ce) (00111)*((01110)(00111)*(01110)(00111)*)* 

(D (00111)*(01110)((01110)(00111)*(01110)(0011 1)*)*((01110)(00111)*1 
10)1(00111)* 1 

3. 改写 以 下 正则 表达 式 ， 消 除 其 中 的 + 和 ?运算 符 。 

(a) 01(012110)4 

(D ((C11(010)2)2)1 (1101(10)2) + 

4. 通过 连续 应 用 代数 定律 ， 化 简 以 下 正则 表达 式 。 
(a) 0121321(10101)1013 

















5. 


6. 
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(5) (12113)(011)I((213)i((311)(110))) 





指出 以 下 FSA 哪些 是 等 价 的 ， 哪 些 是 同 构 的 。 
(a) (b) (c) (d) 
x 
N 
M 
L 
K 
将 以 下 正则 文法 转换 为 正则 表达 式 。 
(a) A 一 aB (b) A OB (c) A — 1B (d) S > OA 
A > bA A > 1C A > OC S 一 IB 
B aC B > 0C B o 0C S > 1 
B > cD B > 1C B 一 1B A 0S 
C 9 c C > OD C > IB A > 1C 
D > d C — ID C — 1 B o 0C 
D — OA B > I1S 
D > 1A C > 1A 
D > 0 C — OB 
C > 0 
. (a) 将 练习 6 中 的 正则 文法 转换 为 不 确定 的 有 穷 状态 自动 机 。 


(b) 将 练习 7 (a) 中 的 NDFA 转换 为 约 简 的 确定 FSA. 


. 将 以 下 正则 表达 式 转换 为 正则 文法 。 


(a) (1212)*(121112) 

(b) 1*(0101)* 

(c) a*l(bca*(ablba)) 

(Cd) ((011)*(10101))* 11(11100) 


. (a) 将 练习 8 中 的 正则 表达 式 转 换 为 不 确定 的 有 穷 状态 自动 机 。 


(b) 将 练习 9 (a) 中 的 NDFA 转换 为 约 简 的 确定 FSA. 


.将 以 下 不 确定 的 有 穷 状态 自动 机 转换 为 确定 的 有 穷 状态 自动 机 。 





. (a) 根据 正则 表达 式 (a 1b )* a ab a 构造 一 个 确定 的 有 穷 状态 自动 机 。 


(b) 编写 一 个 扫描 程序 实现 练习 11 (a) 得 到 的 FSA。 


. 根据 以 下 每 一 FSA 分 别 构造 等 价 的 正则 文法 。 


(a) (b) 





. 给 出 可 由 一 个 有 穷 状态 自动 机 M 接受 的 语言 的 形式 化 定义 。 
.给 出 图 3-16 所 示 FSA 不 接受 的 一 个 语言 实例 L， 再 指定 工 中 的 一 个 串 x， 使 得 (qo, x) ep. HH p 


不 属于 图 3-16 所 示 的 终结 《停机 ) 状态 集 F。 给 出 工 的 文法 。 
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15. 给 出 图 3-16 所 示 FSA 不 接受 的 一 个 语言 实例 L， 但 其 中 至 少 有 一 个 串 x 可 被 同一 FSA 接受 。 给 出 工 的 文法 。 
16. 给 出 练习 1 中 每 一 正则 表达 式 的 正则 文法 。 
17. 给 出 练习 1 中 每 一 正则 语言 的 FSA。 
18. 证 明 由 一 个 FSA 识别 的 语言 可 由 一 个 正则 表达 式 表 示 。 
19. 证 明 对 任 一 正则 表达 式 R， 存 在 一 个 有 穷 自动 机 M 接受 该 正则 表达 式 R 表示 的 串 的 集合 。 
20. ( 引 理 3.1) 证 明 每 一 个 包含 单个 串 的 集合 都 有 一 个 对 应 的 正则 表达 式 。 提 示 : 使 用 基于 构造 的 证 明 技 术 。 
21. (命题 3.1) 证 明 或 反驳 每 一 正则 语言 都 是 有 穷 的 这 一 命题 。 
22. (定理 3.2》 TERRA L AL, REWER. WL IL. Le Lz 和 Li* 分 别 也 是 正则 语言 。 
23. (513.2) 证 明 如 果 工 是 一 个 正则 语言 ， 则 对 任意 Sd, 也 是 正则 语言 。 
24. 定理 3.3) 如 果 世 是 一 个 正则 语言 ， 则 下 列 语言 也 是 正则 语言 。 
(a) LIL”, Henm = 0 
(D Li={e}L 
25. 证 明 对 任 一 正则 表达 式 R，R* 等 于 ( R* )#。 
26. 证 明 表 3-2 中 的 每 一 恒等式 。 
27. 对 正则 表达 式 R 和 S， 给 出 一 个 R S 不 等 于 SR 的 例子 ， 从 而 说 明 RS 并 不 总 是 等 于 SR. 
28， 半 群 是 一 个 二 元 组 ( T, 人 @ )， 其 中 T 是 元 素 的 非 空 集 ，@ 是 一 个 定义 在 T 上 的 、 具 有 结合 性 的 二 元 运 
算 。 给 出 本 章 定义 的 两 个 半 群 的 例子 。 
29. 证 明 如 果 R 是 一 个 正则 集 ， 则 存在 一 个 右 线性 文法 G， 使 得 G 定义 的 语言 L(G) 是 R。 


复习 小 测验 


指出 下 列 陈述 是 否 正确 。 假 设 R、S 和 T 分 别 代表 3# 中 句子 的 正则 集 ，{ s } 是 一 个 仅 含 空 串 ge 的 集合 。 
， 容 语言 是 一 个 正则 表达 式 。 

. 如 果 R=S*T 则 R=SRIT。 

. (R*S)*=(RIS)*Si{e}. 

每 一 有 穷 字 符 串 均 可 由 多 于 一 个 的 正则 表达 式 表示 。 

.每 一 正则 语言 均 包 含 { e } 作 为 子 集 。 

， 每 一 正则 表达 式 均 定义 了 一 个 正则 语言 。 

.所 有 带 克 林 星 号 的 正则 表达 式 都 隐 式 地 使 用 了 连接 运算 。 

. (R{e}S{e}T)*=(RST)*(RST)*. 

. {}{e}={}. 





O 00-1 DMA 4 t t2 — 





编译 程序 实验 项 目 


1. 编写 一 个 正则 表达 式 ， 生 成 由 Itty Bitty Modula 语言 的 全 部 单词 组 成 的 语言 ， 这 些 单词 要 么 是 由 你 在 
第 2 章 所 编写 的 文法 所 定义 的 , 要 么 是 附录 A 语法 图 的 椭圆 中 所 示 的 全 部 单词 。 正 则 表达 式 生成 的 每 
一 句子 ， 应 恰好 由 一 个 单词 组 成 。 请 务必 将 空格 和 注释 考虑 在 内 ， 并 给 出 它们 的 合适 语义 。 

2. 机 械 地 构造 《 即 不 要 重新 考虑 该 问题 ) 一 个 有 穷 状 态 自动 机 识别 Itty Bitty Modula 语言 的 单词 ， 可 从 
以 下 两 种 途径 构造 ， 

(a) 你 编写 的 正则 表达 式 〈 如 上 述 第 1 题 )。 
Cb) 你 为 同一 语言 编写 的 正则 文法 。 

3. 编写 一 个 扫描 程序 的 过 程 ， 恰 好 实现 上 述 第 2 题 中 的 FSA。 使 用 以 下 主 程序 测试 你 的 扫描 程序 〈 若 采 

用 Pascal 语言 或 其 他 语言 编写 ， 则 使 用 其 等 价 形式 ): 
MODULE MainProgram; ; 


(* 你 负责 填写 其 他 类 型 和 变量 *) 


VAR 
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NextToken: Token; 
el. (* 你 负责 填写 Getoken 和 其 他 过 程 *) 
BEGIN 
InitializeScanner; 
REPEAT l 
Getoken; 
WriteInt (ORD(NexToken)); 
WriteLn 
UNTIL NextToken = Dot; 
END MainProgram. 
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第 4 章 ”分析 程 序 和 上 下 文 无 关 语言 


ABS 

e 介绍 LL(K) 文 法 , 

e 阐明 消除 左 递归 和 左 因子 的 转换 规则 ， 以 获得 LL( 间 的 上 下 文 无 关 文法 

e 确定 上 下 文 无 关 文 法 及 其 对 应 的 下 推 自动 机 之 间 的 关系 

e 介绍 First, Follow 和 Selection 集 ， 用 于 确定 文法 中 的 一 个 非 终结 符 是 否 LLON, UR 
文法 本 身 是 否 LL(K) 的 

e 为 上 下 文 无 关 文 法 扩展 正则 表达 式 运算 符 

e 学 习 如 何 将 一 个 扩展 的 LL(1) 上 下 文 无 关 文 法 转换 为 一 个 递归 下 降 分 析 程 序 


4.1 简介 


在 编译 程序 中 ， 扫 描 程 序 从 输入 串 的 字符 序列 识别 出 语言 的 终结 符 ， 这 些 终结 符 是 编译 程 
序 所 识别 语言 的 单词 。 由 扫描 程序 定义 的 语言 是 扫描 程序 所 识别 的 单词 的 集合 ， 这 是 程序 设计 
语言 词法 层面 的 东西 ， 分 析 程 序 则 是 一 个 下 推 自动 机 一 个 栈 机 器 ， 通 常 缩写 为 PDA)， 负 责 
识别 语言 的 短语 结构 ， 即 语言 中 的 单词 如 何 正确 地 组 织 在 一 起 ， 形 成 一 个 语法 上 正确 的 程序 。 

大 多 数 程序 设计 语言 允许 在 句子 的 构造 中 包含 周 套 且 匹 配 的 括号 。 如 第 2 章 所 述 ， 这 类 语 
言 是 上 下 文 无 关 的 ， 并 可 由 上 焉 文 无 关 文 法 (CFG) 定义 。 由 PDA 识别 的 每 一 语言 均 是 上 下 
文 无 关 的 ;这 一 点 的 证 明 相 当 容 易 ， 即 根据 一 个 PDA 的 变迁 可 构造 一 个 CFG 的 规则 。 为 一 个 
PDA 所 接受 的 语言 设计 的 CFG 规则 ， 可 令 CFG 中 的 每 一 产生 式 对 应 着 PDA 中 的 一 条 变迁 。 
本 章 还 说 明了 每 一 上 下 文 无 关 文 法 均 可 被 一 个 不 确定 的 PDA 接受 。 

本 章 的 重点 是 由 一 类 确定 的 PDA 所 接受 的 上 下 文 无 关 语 言 ， 这 类 语言 由 一 种 名 为 LL 
的 上 下 文 无 关 文 法 定义 。 一 个 LL(B 文 法 允许 在 输入 串 上 向 前 看 k 个 符号 即 可 完成 确定 的 、 自 
顶 向 下 的 分 析 。“LL” 这 一 写法 描述 了 所 用 的 分 析 策 略 ， 即 LL 分 析 策 略 从 左 到 右 扫 描 输 入 串 ， 
LL 分 析 程 序 构造 了 一 个 最 左 推导 。 本 章 介绍 一 种 将 LL(1) 文 法 转换 为 一 个 由 传统 程序 设计 语言 
编写 的 所 谓 递归 下 降 分 析 程 序 。 


4.2 下 推 自 动机 


下 推 自动 机 的 形式 化 定义 是 一 个 七 元 组 : 
P = ( £, Q, A, H, ho, qo,F) 

其 中 的 所 有 构成 除 与 FSA 相同 之 外 ， 再 加 上 两 个 新 的 部 分 ， 有 穷 的 栈 字母 表 H; AT H 的 初 
始 符号 hb， 作为 栈 的 初始 内 容 。 类 似 一 个 FSA， 当 PDA 到 达 输 入 串 结尾 ， 并 处 于 某 一 终结 状 
态 〈 集 合 F 中 的 一 个 状态 ) 时 ， 停 机 并 接受 该 输入 串 ; 它 也 可 在 栈 为 空 时 停机 并 接受 输入 串 。 
如 果 PDA 在 其 他 情况 下 到 达 输 入 串 结尾 ， 或 PDA 阻塞 ， 则 它 拒 绝 输 入 串 。 

栈 字母 表 可 以 有 也 可 以 没有 与 输入 字母 表 相 同 的 符号 〈 这 两 种 类 型 我 们 都 将 处 理 到 )， 但 
栈 本 身 可 伸展 到 任意 深度 。 我 们 并 不 称 之 为 无 穷 栈 〈 因 为 如 此 一 来 ， 填 充 它 将 需要 无 限 长 )， 
但 其 深度 没有 固定 的 有 限 长 度 限制 。 

变迁 规则 集 A 是 从 状态 、 输 入 字母 表 和 栈 字 母 表 映射 到 状态 和 栈 字母 表 上 的 串 的 偏 函 数 ， 
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即 集合 A 中 的 一 条 变迁 规则 8 具有 如 下 函数 式 : 
6:Qx(XZU&e)xHoOQxH* 
这 意味 着 每 一 变迁 是 为 一 个 状态 定义 的 ， 它 要 么 读 入 一 个 输入 单词 ， 要 么 什么 也 不 读 入 ， 
但 总 是 从 栈 中 弹出 一 个 符号 , 然后 前 进 到 一 个 新 状态 , 并 将 0 个 或 多 个 符号 组 成 的 串 压 回 栈 中 。 
变迁 规则 类 似 于 FSA 的 变迁 规则 : 
5 (q, & N)=(q, x) 
RE, qi qj 是 状态 ，a 是 输入 字母 表 中 的 某 一 单词 或 e, nn 是 栈 字母 表 中 的 一 个 单词 ,x 是 栈 
字母 表 上 的 字符 串 〈 可 能 为 空 )。 如 果 变 迁 不 影响 栈 ， 那 么 种 x 也 可 直接 又 是 符号 nn。 一 个 
格局 ( q, ©, x ) 表 示 PDA 处 于 状态 q 时 ， 待 输入 的 未 读 入 符号 串 是 @， 并 且 栈 顶 有 一 个 特定 
的 串 x. 
与 FSA 一样, — PDA 也 可 能 是 不 确定 的 。 不 确定 的 PDA 与 确定 的 PDA 主要 区 别 在 于 ， 
对 任 一 给 定格 局 存在 多 于 一 个 的 可 能 变迁 ， 即 从 同一 状态 、 相 同 栈 符号 出 发 ， 有 2 个 或 更 多 的 
变迁 规则 要 么 读 入 同一 输入 单词 ， 要 么 什么 都 不 读 入 。 
例如 ， 令 Po=( {a,b,c}, {A,B,C} A, {nh,i),i,A,f{})) 是 一 个 确定 的 PDA〔 如 图 4-1 所 
示 )， 其 中 A 是 如 下 变迁 的 集合 : 
ó(A,a,i) Z (B, h) $(A,c,i) (AE) 
$(B,a,h) Z (B, hh) $6(B,c h)-(C, h) 
$(C, b, h) (Ce) 





图 4-1 一 个 下 推 自动 机 的 例子 


该 PDA 识别 由 文法 { S 一 aSb, S > c } 产 生 的 所 有 串 ， 即 由 相等 数目 的 e A PS 
< 分隔 的 串 。 它 的 起 始 格局 是 状态 A 以 及 栈 中 有 一 个 i, 在 栈 为 空 时 停机 。 为 它 提供 输入 串 aacbb 
时 , 它 在 执行 了 5 步 变 迁 后 停机 , 并 接受 该 串 (注意 栈 顶 从 左边 开始 ; 图 4-2 也 演示 了 这 一 过 程 ): 





格 A PDA 动作 
(A, aacbb, i) 初始 格局 ; WA a， 弹出 i， 压 入 h， 再 转 入 状态 B 
( B, acbb, h) 读 入 a， 弹 出 h， 压 入 hh, ARAB 
( B, cbb, hh) WA c. Hith, EA h, EARE C 
(C, bb, hh) A b, WH A. HAREC 
(C b, h) 读 入 b， 弹 出 h， 转 入 状态 C 
(C, &,£) 停机 

| on | 

Rp oi | ET [on] zx 

状态 A B B C C C 


图 4-2 下 推 自动 机 的 栈 的 增长 
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| RA 停机 条 件 的 等 价 性 
显而易见 ,在 一 个 终结 状态 停机 等 价 于 栈 为 空 时 停机 , 即 对 每 一 个 在 终结 状态 停机 的 PDA, 
可 构造 一 个 等 价 的 PDA (接受 同一 语言 ) 在 栈 为 空 时 停机 ; 反之 亦 然 。 令 P, 为 空 栈 停机 的 PDA, 
即 其 终结 状态 的 集合 F 为 空 。 我 们 构造 一 个 与 Pj 等 价 的 下 推 自动 机 P,， 不 同 之 处 在 于 它 有 2 
个 新 加 的 状态 q:( 指 派 为 它 的 终结 状态 ) 和 qs 指派 为 它 的 起 始 状 态 )， 还 有 一 个 新 加 的 栈 符 
号 hy (指派 为 初始 栈 元 素 ) 和 以 下 新 加 的 变迁 规则 : 


5 (dg, €, hy) = ( qo, hohy) 
5 (qi & hy) = ( gg hy) 


《 栈 顶 在 左边 ) 
对 Pi 的 每 一 状态 qie Qi 


第 一 条 新 规则 将 原来 的 初始 栈 符号 ho 压 入 到 新 的 初始 栈 符 号 hy 之 上 ,并 转 入 原来 的 起 始 状 
AS qo， 无须 读 进 任何 输入 ， 从 此 P. 会 像 Pi 那样 操作 ， 直 至 到 达 Pi 中 栈 已 为 空 的 情形 ; 在 P 
的 栈 中 仍 有 hp 由 于 Pi 中 任 一 状态 从 该 格局 均 有 变迁 转 入 停机 状态 q (如 上 述 第 二 条 规则 所 示 )， 
因而 Ps 恰 好 在 同一 格局 停机 , 只 不 过 多 执行 了 一 次 变迁 。 由 于 新 加 的 变迁 全 部 不 读 进 任何 输入 ， 
并 且 要 求 见 到 新 的 栈 符号 b 才 能 继续 前 进 ， 所 以 它们 不 会 影响 Pi 的 原 有 功能 。 若 对 PDA 例子 


Po 应 用 这 一 转换 ， 结 果 将 是 : 


Po' =( {a,b,c}, {A,B,C,E, F}, A (hi,f},fE,{F)}) 


其 中 ，A' 是 变迁 的 扩展 集合 : 
5(A,a,i)=(B,h) 
ö(B,a,h)=(B, hh) 
5(C,b,h)=(Ce) 
5(E,&,f)=(A, if) 
$6(B.ef)-(E,f) 


6(A,c,i)=(A,e) 
6(B,c,h)=(C,h) 


6(A,e,f)=(F,/) 
$(C, e, f)=(F,f) 


现在 ， 给 定 任 一 PDA CBA P) 在 一 个 终结 状态 停机 ;， 类似 地 ， 我 们 构造 一 个 如 下 的 新 
PDA (BA Pj) 在 栈 为 空 时 停机 ， 如 下 所 示 。 我 们 为 P: 添加 一 个 新 状态 qs， 对 H 中 的 每 一 符 


号 己 添加 以 下 变迁 ; 
8 (dg, E€ hy) = (dy, £) 
5 (gp E, hi) (qs €) 


对 PIRE EAR dS gy 


从 而 只 要 P; 因 到 达 停机 状态 gr 而 停机 ，P3 将 进入 特殊 状态 qs 清空 栈 ( 从 而 停机 》。 


将 上 述 转换 应 用 到 Po， 可 得 


Po" =({ a,b,c },{ A,B, C,E,F,G},A",{h,i,f},f,E, (}) 


其 中 ，A" 是 变迁 集 (再 次 扩展 ): 
6(A,a,i)=(B,h) 
5(B,a,h)=(B, hh) 
6(C,b,h)=(C,e&) 
(E, £, f)=(A, if) 
(B, £, f)=(F,f) 
6(G,e,h)=(G,e) 
6(G,g i)-(G,e) 
$6(G,£,/)-(G,£) 


6(A,c i)-(A,E) 
6(B,c,h)=(C,h) 


$(A,£ f) -(E,f) 
(C, £, f)=(F,f) 
5(F,¢,4)=(G,e) 
6(F,e,i)=(G,e) 
6(F,e,f)=(G,e) 
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4.2.2 根据 上 下 文 无 关 文 法 构造 下 推 自动 机 

构造 出 来 的 PDA 的 输入 字母 表 与 文法 的 字母 表 相同 ; 它 的 栈 字母 表 由 (三 UN ) 组 成 ， 即 输 
入 字母 表 中 的 所 有 单词 加 上 文法 的 所 有 非 终结 符 ， 初 始 栈 符 号 是 文法 的 目标 符号 。 该 PDA f 
有 一 个 状态 gq， 并 在 栈 为 空 时 停机 。 它 的 变迁 按 如 下 方式 构造 ,为 中 的 每 一 终结 符 x， 添 加 一 
条 变迁 规则 : 

N.1 5(q,x,x)=(q,€) 
该 变迁 读 入 一 个 单词 ， 并 从 栈 中 弹出 相同 的 单词 。 对 G 中 的 每 一 产生 式 A S o, 添加 一 条 变迁 
规则 : 
N.2 5(q,€,4)=(q,@) 

该 变迁 将 栈 项 的 一 个 非 终结 符 替 换 为 该 产生 式 右 部 的 串 @ (由 终结 符 和 非 终结 符 组 成 )， 无 须 读 
入 任何 输入 。 

显然 ， 该 PDA 实现 了 一 种 自 顶 向 下 的 语法 分 析 。 从 栈 中 的 目标 符号 出 发 ， 它 不 确定 地 连 
续 重 写 最 左 的 非 终结 符 ， 直 至 句 型 中 的 最 左 符号 〈 即 栈 顶 符号 ) 是 一 个 与 输入 串 首 个 单词 匹配 
的 终结 符 。 此 时 执行 读 入 该 单词 的 变迁 ， 这 一 过 程 不 断 重复 ， 直 至 已 读 完整 个 输入 串 或 PDA 
FASE. PDA 阻塞 当 且 仅 当 不 存在 变迁 序列 最 终 使 得 下 一 输入 单词 与 栈 顶 符号 匹配 ,这 意味 着 语 
言 中 不 存在 与 输入 串 匹 配 的 串 。 注 意 仅 当 从 输入 串 中 读 入 首 个 符号 之 前 ，PDA 的 栈 才 完 全 表示 
了 当前 的 多 型 ， 此 后 的 名 型 均 分 为 两 部 分 : 已 读 入 的 输入 串 部 分 和 当前 的 栈 。 刚 才 是 以 构造 方 
式 证 明了 定理 4.1。 

定理 4.1 如 果 工 是 一 个 上 下 文 无 关 语 言 ， 则 存在 一 个 不 确定 的 PDA 接受 该 语言 。 

3128 4.1 如 果 工 是 被 一 个 PDA 接受 的 语言 ， 则 工 是 上 下 文 无 关 的 。 

【证 明 】 以 构造 方式 证 明 。 简 要 地 说 ， 令 M 是 一 个 PDA， 根 据 M 的 变迁 构造 出 文法 的 规 
则 。 这些 规 则 的 具体 构造 方法 留 作 练习 17。 口 

定理 4.2 如 果 Li 和 I2 是 上 下 文 无 关 语 言 ， 则 其 并 集 LI+I2 也 是 上 下 文 无 关 的 。 

【证 明 】 以 构造 方式 证 明 ， 两 次 应 用 定理 4.1 的 结论 ， 再 从 识别 Li 的 PDA, 和 识别 Ly 的 


PDA; 构造 出 一 个 新 的 PDA; 最 后 使 用 引 理 4.1 的 结论 (参见 练习 18). 口 
注意 ， 定 理 4.2 的 证 明 方 式 也 可 通过 将 Li 的 CFG, 和 Lo 的 CFG, 混合 在 一 起 ， 构 造 出 一 个 
新 的 上 下 文 无 关 文法 。 


定理 4.3 RL Fe L,RE FLARES, N L fo Ly 中 所 有 囊 的 连接 OLY L eL) 
是 一 个 上 下 文 无 关 语 言 。 
【证 明 】 可 通过 构造 方式 证 明 。 不 失 通 用 性 ， 可 假设 L 和 L2 分 别 由 上 下 文 无 关 文 法 CFG, 
和 CFG, 定义 ， 如 下 所 示 : 
CFG: Z(Z,N,P,A) 定义 了 语言 Li 
| CFG; = ( X, Na, Pp, A ) 定义 了 语言 Ly | 
Arb, (F, N, Pi, A MEX, No, P, A ) 分 别 是 CFG, 和 CFG, 的 字母 表 、 非 终结 符 集 、 产 生 式 集 和 
目标 符号 。 我 们 有 意 将 这 两 个 文法 的 有 目 标 符号 命名 为 同一 名 字 A。 由 于 需要 区 别 这 两 个 文法 的 
非 终结 符 ， 我 们 将 CFG, 的 所 有 非 终结 符 加 上 下 标 1， 将 CFG, 的 所 有 非 终结 符 加 上 下 标 2。 现 
在 这 两 个 文法 具有 如 下 形式 ; 
CFG, = ( Ł, N, P, A) 定义 了 语言 L 
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CFG, =(2,N,P, A2) 定义 了 语言 L， 
然后 引入 一 个 新 的 非 终 结 符 A 和 以 下 重 写 规则 : 
A >A; å? 
其 中 ， Al 是 CFG1 的 目标 符号 ，As 是 CFG 的 目标 符号 ， 从 而 Lie L; 中 的 任意 串 都 可 由 这 个 新 
文法 〈 称 之 为 CEGA) 推导 出 。 如 果 w 是 CFG 推导 出 的 一 个 串 ，@ 将 具有 如 下 形式 : 
w= {Li 中 的 串 {L PRE } 
由 于 原文 法 中 的 非 终 结 符 可 通过 其 下 标 加 以 区 分 ,在 推导 过 程 中 选择 下 一 重 写 规则 时 是 不 


会 混淆 的 。 口 
考虑 文法 Ge， 它 产生 的 串 是 若干 a 后 接着 与 e 个 数 相同 的 b: 
P.1 SaSb 
P.2 S£ 
新 构造 的 PDA 变迁 如 下 所 示 : 
4.1 8(qs,S)=(q,aSb) (根据 N.2 和 了 .1) 
4.2 ó(q e S)-(q E) (根据 N.2 和 P.2) 
4.3 5(q,a,a)=(q,€) (根据 N.1) 
4.4 (q, b, b)-(q €) (根据 N.D 


分 析 输 入 串 aabb 时 ， 该 PDA 从 初始 格局 ( q, aabb, S ) 出 发 ， 如 表 4-1 的 第 1 行 所 示 。 容 易 
看 出 ， 可 用 的 变迁 只 有 规则 4.1 和 4.2; 假设 我 们 选择 规则 4.1， 产 生 了 第 2 行 所 示 的 新 格局 。 
此 时 ， 惟 一 可 能 的 变迁 是 规则 4.3， 从 而 产生 格局 ( q, abb, Sb )。 接 着 我 们 又 面临 同样 的 选择 ， 
假设 我 们 选择 规则 4.2， 这 让 我 们 得 到 第 4a 行 的 格局 ， 其 中 已 无 变迁 可 用 ， 因 而 该 选择 是 错误 
的 ， 如 果 我 们 选择 再 次 应 用 规则 4.1， 它 后 面 还 可 应 用 规则 4.3， 从 而 产生 第 5 行 的 格局 ( q, bb, 
Sbb )。 第 三 次 应 用 规则 4.1 时 在 格局 ( q, bb, aSbbb ) 受 阻 ， 但 规则 4.2 可 成 功 进入 第 Ob 行 的 格 
局 ， 从 该 格局 出 发 两 次 应 用 规则 4.4 就 可 读 入 剩余 的 输入 串 并 将 酚 清 空 。 


表 4-1 È aabb 的 不 确定 分 析 


i 
2 
s 


变迁 规则 


4.1 
43 
43? 


如 本 书 第 3 章 所 述 ， 不 确定 的 自动 机 不 会 产生 一 个 非常 高 效 的 计算 机 程序 ， 上 述 这 一 
PDA 也 不 例外 。 敏 锐 的 读者 可 能 早已 注意 到 ， 通 过 观察 输入 串 中 的 下 一 单词 ， 并 与 可 用 的 
选项 进行 比较 ， 可 帮助 决定 一 些 不 确定 的 变迁 规则 选择 。 诚 然 ， 这 正 是 LL( 吕 预测 分 析 所 采 
用 的 做 法 。 
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43 LL(9&&t 

从 文法 构造 的 PDA 有 两 个 变迁 导致 上 一 PDA 是 不 确定 的 。 这 两 个 变迁 都 无 须 读 进 任何 输 
入 ， 并 且 都 是 从 栈 中 弹出 非 终结 符 S， 然 后 用 其 他 符号 取而代之 。 

其 中 一 个 变迁 将 一 个 以 终结 符 a 开头 的 串 压 入 栈 中 : 在 a 位 于 栈 顶 的 情况 下 ， 如 果 想 要 分 
析 程 序 不 阻塞 ， 则 下 一 输入 符号 必须 也 是 一 个 &。 另 一 个 变迁 弹出 S， 并 在 其 位 置 不 压 入 任何 
符号 。 除 初始 格局 外 ， 每 一 个 压 入 栈 中 的 $ 都 属于 一 个 在 S 后 面 跟着 终结 符 b 的 串 的 一 部 分 ; 
当 弹 出 S 并 用 空 串 取而代之 时 ，b 将 暴露 在 栈 项 ， 因 而 下 一 输入 符号 必须 也 是 5b 才 可 防止 分 析 
程序 的 PDA 阻塞 。 

因而 在 上 述 例子 中 ， 两 个 不 确定 的 选择 强制 规定 了 下 一 变迁 对 不 同 输入 符号 的 需求 。 作 反 
向 思维 ， 如 果 我 们 观察 下 一 输入 单词 《但 并 不 读 入 它 )， 则 可 明智 地 选择 在 下 一 步 该 输入 符号 
不 会 引起 阻塞 的 变迁 。 这 意味 着 如 果 下 一 输入 单词 是 a， 则 应 选择 规则 4.1 的 变迁 ， 因 为 它 使 
得 下 一 步 有 可 能 应 用 规则 4.3 的 变迁 ， 而 如 果 下 一 输入 单词 是 bp， 则 应 选择 规则 4.2， 因 为 它 使 
得 下 一 步 有 可 能 应 用 规则 4.4。 仅 观察 下 一 输入 单词 而 不 读 入 它 ， 称 为 “向 前 看 ” 如 果 在 输入 
带 上 只 要 向 前 看 k 个 符号 ， 就 可 从 一 个 文法 构造 出 一 个 确定 的 自 顶 向 下 PDA， 则 称 该 文法 为 
LL(k)X ik. 

文法 G 是 LL(A) 的 ， 如 果 任 意 两 个 最 左 推导 : 

So*uAz—uxzo*uvw 

S>*¥uAz>uyz>*uvw 
都 有 x=y; 其 中 ，u、v 和 w REHRARARN ES OUR RTREJEZE BO, x. y 和 z 都 是 由 终结 符 
和 非 终结 符 组 成 的 串 ， 且 | v | CR v 的 长 度 ) 是 天 个 符号 。 这 意味 着 不 存在 两 个 不 同 的 产生 式 
A 一 Xx 和 Ac 一 》， 使 得 从 应 用 这 两 条 产生 式 开 始 ， 在 生成 的 串 中 有 同样 的 上 个 符号 。 注 意 ， 我 
们 并 不 要 求 x 和 y 本 身 生成 有 大 个 符号 的 w， 而 只 要 求 不 管 它们 生成 什么 串 , 在 后 面 接 上 由 串 z 
生成 的 终结 符 凑 成 个 单词 后 , 会 产生 相同 的 捉 。 换 而 言 之 ,根据 文法 G 构造 的 一 个 自 顶 向 下 
分 析 程 序 读 入 前 缀 u 中 的 单词 后 ,在 面临 产生 式 A S x 和 A S y 的 抉择 时 , 只 要 该 文法 是 LLK) 
的 ， 就 可 根据 未 读 入 的 剩余 输入 串 中 的 前 丰 个 符号 ， 确 定 地 选择 其 中 的 一 条 产生 式 。 

回 到 上 述 例子 ， 可 见 该 文法 是 LL(1) 的 ， 因 为 向 前 看 一 个 符号 即 可 消除 所 有 的 不 确定 性 。 
文法 Gi 的 产生 式 P.1 中 , 产生 式 右 部 的 首 个 单词 ( 即 a) 是 帮助 我 们 基于 该 产生 式 选 择 变迁 ( 即 
规则 4.1) 的 向 前 看 符号 。 产 生 式 P2 的 右 部 没有 任何 单词 ， 即 其 右 部 为 空 。 但 我 们 可 通过 观察 . 
其 他 产生 式 的 右 部 ， 发 现 那 些 可 跟 在 该 产生 式 左 部 的 非 终结 符 之 后 的 单词 。 因 而 文法 Gs FAY 
推导 

S>*aSb>aaSbb>*aabb 
要 求 应 用 产生 式 S 一 aSb〔 下 划 线 所 示 步 又 )， 对 相应 的 PDA 而 言 ， 分 析 到 这 一 步 时 未 读 入 的 
剩余 输入 串 abb 中 的 下 一 向 前 看 符号 (k=1) 是 a,， 这 正 是 所 选 产生 式 的 首 个 单词 。 另 一 方面 ， 
推导 

S=>*aSb>ab>*ab 
要 求 应 用 产生 式 Soe, E PDA 分 析 到 这 一 步 时 ， 输 入 串 的 下 一 符号 〈 也 是 仅 存 的 符号 ) 是 
5b， 而 在 产生 式 P1 中 该 单词 可 跟随 在 S 之 后 。 
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4.3.1 First 和 Follow $& 

为 证 明 一 个 文法 是 LEL(O 的 ,我 们 基于 文法 的 产生 式 构造 由 长 度 为 大 的 串 组 成 的 一 些 集合 : 
为 文法 产生 式 的 所 有 右 部 w 构造 Firsix(w);， 为 文法 的 所 有 非 终结 符 N PE Follow (N); FEI 
可 构造 所 有 产生 式 的 选择 集 ， 然 后 判断 该 文法 的 LLC 条 件 是 否 成 立 。 

对 任意 串 w，Firstx(w) 是 可 从 w 推导 出 的 、 由 大 个 或 少 于 上 个 单词 组 成 的 所 有 终结 符 串 的 
集合 。 非 终结 符 N 的 Folow 是 由 大 个 单词 组 成 的 终结 符 串 的 集合 ， 并 且 这 些 终结 符 串 可 跟 在 
由 N 推导 出 的 任何 串 之 后 。 一 条 产生 式 的 选择 集 Select, 是 由 大 个 单词 组 成 的 向 前 看 符号 串 的 集 
合 ， 这 一 集合 在 一 个 确定 的 自 项 向 下 分 析 程 序 中 决定 了 对 产生 式 的 选择 。 

对 任意 由 终结 符 和 非 终结 符 组 成 的 串 w、v 和 w， 可 根据 表 4-2 中 的 规则 FE1~F.4 构造 集合 
Firstx(w)。 注 意 在 这 些 规则 中 ，First 既 可 应 用 于 单个 串 ， 也 可 应 用 于 串 的 集合 ， 这 可 根据 上 下 
文 来 确定 。 


表 4-2 First 和 Follow 集 的 定义 


规则 下 1I 表明 ， 对 于 一 个 由 两 个 子 串 组 成 的 串 ， 其 First, 可 通过 各 个 子 串 的 First 来 构造 ， 
形成 的 串 由 第 一 个 子 串 的 First, 中 的 一 个 元 素 连接 第 二 个 子 串 的 First, 中 的 一 个 元 素 , 然后 取 每 
一 个 串 的 前 大 个 单词 ， 如 果 连 接 后 的 串 不 足 大 个 单词 ， 那 么 整个 串 就 置 于 结果 集中 。 因 而 ， 若 
Firstz(w) 是 集合 { ab, cd, d, dd, € }, H First(v) 是 集合 { cc, d, gs }， 则 Firspdew) 的 构造 方法 是 将 
Pirsb( 中 的 5 个 串 逐 一 与 Firsto(y) 中 的 3 个 串 连接 ， 在 产生 的 15 个 串 

abcc abd ab, cdcc cdd cd, dcc dd d, ddcc ddd dd, cc d € 
中 取 每 个 串 的 前 两 个 字符 ， 删 除 重复 元 素 后 即 得 集合 { ab, cd, dc, dd, d, cc, € ) « 

规则 下 2 表明 ,一 个 非 终结 符 的 First, 是 左 部 为 该 非 终结 符 的 所 有 产生 式 的 右 部 的 First, o 
并 集 。 规 则 E3 表明 ， 一 个 单词 自身 的 First, 是 一 个 由 该 单词 单独 组 成 的 集合 。 推 而 广 之 ， 一 
个 由 或 少 于 个 单词 组 成 的 串 的 First, 是 一 个 由 该 串 本 身 组 成 的 单元 素 集 。 规 则 E4 形式 上 人 多 
许 了 在 First, 中 出 现 串 长 小 于 大 的 串 。 

例如 ， 考 虑 一 个 简单 的 文法 Go: 

A 一 Ba Bb Bc 
根据 规则 El, 8 Ba 的 First, 等 于 Firsti( First\(B) First\(a) )。 根 据 规 则 F2，Firsn(B) 是 Firsti(b) 
和 Firsti(c) 的 并 集 ， 根据 规则 玉 3， 它 们 分 别 是 { 5b } 和 { c }。 因 而 ，Firsn(B) 是 集合 { b,c}, A 
而 Firsti( Ba) 是 Firsti( { ba, ca })= {b,c ). - 

X 4-2 中 的 规则 FS 构造 了 一 个 非 终结 符 A 的 Followx(A)。 该 规则 意味 着 车 要 构造 
Followx(A)， 应 搜索 文法 中 那些 A 出 现在 其 右 部 的 所 有 产生 式 ， 将 A 右边 的 所 有 串 的 First s 
加 到 Follow 集中 ， 包 括 Followx(B)， 其 中 B 是 产生 式 左边 的 非 终结 符 。 

像 First 和 Follow 这 种 递归 定义 的 集合 可 能 导致 存在 多 个 解 的 逻辑 问题 ， 我 们 通过 规定 


















对 所 有 形 如 N 2 w 的 产生 式 中 的 w 
对 文法 字母 表 中 的 所 有 终结 符 x 
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First 和 Follow 是 最 小 解 的 集合 来 避免 这 些 问 题 。 

据 定义 ， 目 标 符号 S 的 Follow 集 总 包含 一 个 特殊 符号 上 L， 该 符号 表示 一 个 串 的 结束 〈 亦 即 
PDA 的 输入 结束 ); 这 意味 着 串 结束 符 总 能 跟随 整个 生成 的 串 ， 这 是 一 个 显而易见 、 却 容易 被 
忽视 的 事实 。 对 一 个 编译 程序 而 言 ， 串 结束 符 表示 一 个 源 文件 的 结束 ， 在 操作 系统 中 ， 命 令 行 
解释 程序 的 语法 分 析 程 序 可 能 将 输入 行 的 结束 符 作 为 一 个 目 结束 符 。 申 结束 符 1 的 长 度 被 假定 
为 与 个 单词 的 长 度 相 同 ， 因 而 可 完全 填 满 它 的 Follow, 串 。 由 于 语言 中 的 每 一 个 串 都 隐 式 地 
跟着 一 个 上 ， 并 且 Folioww 集 是 递归 定义 的 ， 以 便 在 有 需要 时 返回 目标 符号 寻找 串 结束 符 ， 所 以 
可 推 知 Foliow: 集 仅 由 长 度 为 k 个 符号 的 串 组 成 。Follow 集 不 会 是 空 集 ， 也 不 会 包含 空 串 。 

作为 Follow 的 一 个 例子 ， 考 虑 一 个 简单 的 文法 Ga: 

S— Bx A-aA 
B—yAzA A2b 

为 计算 A 的 Follow;!， 我 们 找 出 非 终 结 符 A 出 现在 产生 式 右 部 的 所 有 产生 式 ， 共 有 3 个 。 
其 中 一 个 后 面 跟随 着 z， 故 z 属于 Follow, R: 另外 两 个 位 于 各 自 产 生 式 的 最 右 端 ， 因而 分 别 关 
注 各 自 的 左 部 〈 即 A 和 B) 的 Follow1 集 ， 并 且 将 它们 放 入 Follow (AS. AIB 的 Follow, 
f(x), BIS B 仅 出 现在 一 条 产生 式 的 右 部 ， 并 且 它 后 面 跟 着 一 个 x， 因而, x 也 属于 A 的 
Follow, 集 。 根 据 A 出 现在 最 右 端的 另 一 产生 式 可 发 现 A 也 是 其 左 部 ， 但 右 递归 非 终 结 符 对 
Follow 集 不 起 作用 ， 故 可 忽略 之 。 因 而 本 例 中 Foliowi(A) 集 是 集合 { x, z }。 如 果 文 法 中 还 有 产 
生 式 

BoOAA 
则 根据 规则 F2, Follow (ALS First\(A), TEASBI BIA dr a,b}. 

再 回 到 文法 Gle， 该 文法 定义 了 若干 a 后 面 接着 数目 相同 的 5 OPE B. 让 我 们 构造 它 的 

First, 和 Follow, Æ: 

SoaSb First (a S b) = First, ( First, (a) First;(Sb))= [a] 

Ste First;(€)={ €} 
First ( Sb ) 递 归 地 调用 我 们 正在 求 的 First( aSb )， 但 不 管 该 集合 最 终 计 算 结 果 是 什么 ， 它 将 连 
接 到 一 个 a 的 右边 ， 且 连接 后 的 串 组 成 的 集合 的 First, 只 有 单个 a (无 视 该 递归 集 )。 一 般 而 言 ， 
如 果 工 是 一 个 单词 ， 则 First( xy ) 是 { x }， 而 不 用 管 y 是 什么 。 

该 文法 的 惟一 非 终结 符 是 S，Follow1(S) 包 含 两 个 元 素 { L, b }。 由 于 S 是 目标 符号 ， 集 合 

中 包含 了 上 串 结束 符 ， 而 集合 中 的 单词 bp 则 源 自 针 对 第 一 条 产生 式 应 用 规则 ES: 
First, ( First ( b ) Follow (S )) 
与 构造 Firsfi( aSb ) 类 似 ， 由 于 First (DRA PARAL k= 1 FARE, 故 没 必要 计算 余下 的 表 
达 式 ， 因 为 它 对 集合 的 计算 不 会 起 作用 。 
4.3.2 选择 集 
… 对 文法 中 的 每 一 产生 式 A 一 mw， 我 们 构造 选择 集 
Select,( A > w ) = First, ( First,( w ) Follow,( A) ) 

文法 中 一 个 非 终结 符 A 是 LL(A) 的 ， 如 果 不 存在 两 个 A 的 产生 式 ( 即 A 作为 左 部 的 产生 
AO 的 选择 集 包含 任何 相同 的 元 素 。 一 个 文法 是 LL( 间 的 ， 如 果 该 文法 中 的 每 一 非 终结 符 均 
为 LL(K) 的 。 
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任何 LL(O 文 法 都 是 LL(E + 1) 的 ， 显 而 易 见 ， 如 果 上 个 向 前 看 符号 就 足以 确定 任何 产生 式 
的 选择 ， 那 么 多 关注 一 个 符号 也 不 会 降低 确定 性 ， 然 而 反之 不 然 。 
所 有 LL(0) 文 法 均 产 生 有 穷 的 语言 。 考 虑 到 在 一 个 LL(0) 文 法 中 不 存在 任何 有 意义 的 选择 ， 
这 一 结论 是 显然 的 。 产生 不 同 串 的 两 条 产生 式 之 间 的 选择 不 得 不 取决 于 输入 串 中 的 向 前 看 符号 
(查看 将 生成 哪 一 个 串 )。 一 个 语言 能 成 为 无 穷 的 ， 其 惟一 方式 是 使 用 递归 ;如果 同一 非 终 结 符 
的 产生 式 中 不 存在 其 他 〈 非 递归 的 ) 选项 ， 则 递归 过 程 无 法 终止 。 因 而 ， 一 个 LL(0) 文 法 必定 
产生 恰好 一 个 有 穷 长 度 的 串 ， 亦 或 不 产生 任何 串 。 
在 文法 Ge 中 ，S 有 两 条 产生 式 ， 它 们 的 选择 集 计算 如 下 : 
S—aSb Select ( S > a S b )= First, ( First, (a S b) Follow ( S)) 
zFirsti( (aM ( 1L, 5b )) 
= First;({ aL,ab}) 
={a} 
SE Select ( S €) = First, ( First ( ) Follow; (S ) ) 
= First;({e} CL, b)) 
={1,5} 
由 于 S 的 两 个 选择 集 不 存在 任何 共同 元 素 ， 因 而 S 是 LL(D) 的 ， 从 而 文法 Gi Æ LLK. 
作为 另 一 个 例子 ,考虑 第 2 章 中 简单 表达 式 的 上 下 文 无 关 文 法 G,。 为 简单 起 见 , 我 们 添加 
一 个 新 的 非 终 结 符 G 作为 目标 符号 ， 同 时 添加 一 个 新 产生 式 显 式 地 描述 串 的 结尾 。 表 4-3 中 构 
造 了 该 文法 的 First. Follow; 和 Select, R. 


表 4-3 文法 Gz 的 First. Follow 和 选择 集 


First [ Follow, | Select 
DO  G—El EXE Po tm 




















D.1. E>E+T [nC 
D2. E>T (n) 
D3. TOT*F [n 
DA. TOF {n,(} 
D.5. F>(E) [CI 
D.6. Fn [n] 


通常 First 集 采 用 自 底 向 上 的 方式 会 更 容易 构造 ， 即 从 右 部 的 首 个 符号 为 终结 符 的 那些 产 
生 式 入 手 ; 在 本 例 中 即 F 的 两 条 产生 式 。 这 样 更 容易 为 包含 这 些 非 终结 符 引 用 的 其 他 产生 式 计 
算 First Æ. 

计算 产生 式 D.4 的 First 只 需 简 单 地 将 非 终结 符 F 的 所 有 First 集 求 并 集 ， 但 D.3 却 引发 了 
另 一 问题 ， 只 有 先 求 出 First(T) 才 可 以 求 FirsgT*E)， 而 First(T) 却 要 靠 First( T * F)oKB ! 38 
过 直观 分 析 即 可 快速 解决 这 一 问题 。 非 终结 符 T 在 左边 递归 , 亦 即 只 要 我 们 选择 了 产生 式 D.3， 
在 生成 的 部 分 串 中 T 就 会 位 于 左边 ， 尽 管 每 次 都 会 在 右边 产生 “*F” 可 跳出 递归 的 惟一 方式 
是 选择 产生 式 D.4， 形 成 一 串 由 星 号 分 隔 的 FE。 具 体 地 说 ， 由 于 第 一 个 符号 是 FE， 递归 的 了 不 
439 First( T * ) 集 贡献 任何 元 素 。 同 理 ， 产 生 式 D.1 也 不 会 给 First 忆 +T) 集 贡献 任何 元 素 ， 
该 集合 的 元 素 都 源 自 产生 式 D.2。 

Follow 集 采 用 自 项 向 下 的 方式 更 容易 构造 ， 并 且 从 目标 符号 G 开始 构造 。 在 本 例 中 ， 串 终 
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结 符 作为 一 个 终结 符 显 式 地 写 在 文法 中 ， 因 而 不 必 为 Follow(G) 专 门 写 下 什么 。 但 由 于 该 产生 
式 没有 其 他 选择 ， 并 且 它 也 不 会 产生 空 串 ， 因 而 不 需要 有 Follow S. 

通过 浏览 文法 中 有 E 出 现 的 产生 式 右 部 ， 很 容易 找 出 EE 的 Follow fk: 该 文法 有 3 个 这 样 的 
E， 每 个 后 面 均 跟 着 一 个 终结 符 。 这 样 就 简单 了 ，Follow(E) 正 好 就 是 这 3 个 终结 符 组 成 的 集合 。 

非 终结 符 T 也 在 产生 式 的 右 部 出 现 了 3 次 , 但 其 中 仅 有 一 次 是 在 后 面 跟 着 一 个 终结 符 。 终 
结 符 “*” 必 定 在 Foliow(T) 中 ， 然 而 另外 两 次 出 现 又 带 来 什么 结果 呢 ? 这 两 次 出 现 都 是 在 非 终 
结 符 T 之 后 没有 任何 符号 ， 但 LL() 条 件 要 求 的 不 是 产生 个 符号 ， 而 只 是 向 前 看 上 个 符号 ， 
不 管 这 些 符号 是 如 何 产生 的 。 这 意味 着 T 的 Follow 集 必 须 包 含 那些 可 跟 在 产生 式 右 部 CT 是 最 
右边 的 符号 ) 之 后 的 所 有 东西 ， 这 反映 在 规则 RS 中 递归 地 引用 了 左 部 非 终 结 符 的 Follow 集 ; 
在 本 例 中 , 这 两 种 情况 的 左 部 非 终结 符 都 是 EE。 因而 , Follow( 了 T) 包 含 了 Follow(E) 中 的 所 有 元 素 ， 
再 加 上 之 前 提 到 的 “*”。 

类 似 地 ，F 的 Follow RAF Follow(T) 中 的 所 有 元 素 ， 除 此 之 外 无 其 他 元 素 ， 因 为 F 仅 出 
现在 T 的 产生 式 的 结尾 。 

到 了 这 一 步 , 就 很 容易 从 First 和 Follow 集 构造 出 选择 集 。 由 于 所 有 First 集 均 不 包含 长 度 
短 于 的 串 ， 故 无 须 考虑 Follow 集 ， 选 择 集 恰 好 就 是 First Æ. BERKE, E 的 两 条 产生 式 
的 选择 集 包 含 相同 的 元 素 ， 因 而 非 终 结 符 E 不 是 LL(1) 的 ; 同 理 ， 非 终结 符 T 也 不 是 LL(1) 的 。 
从 上 述 任 一 结论 可 得 ,文法 Gz 不 是 LL(1) 的 。 该 文法 既 不 是 LL(2) 的 ， 也 不 是 LL(3) 的 。 通 常 
一 个 程序 设计 语言 的 文法 车 不 是 LLOR, WAHE kE, CERE LLOR. 


44 左 递归 


文法 GP 的 关键 问题 是 E 和 T 的 产生 式 都 是 左 递归 的 , 即 D.1 中 产生 式 左 部 的 非 终 结 符 E 同时 
也 出 现在 右 部 的 最 左 端 , D.3 P T 的 情况 也 类 似 。 分 析 


程序 无 法 通过 有 穷 的 向 前 看 符号 ， 了 解 需要 应 用 几 次 ~~ 
递归 之 后 才 选 择 一 条 可 令 递归 终止 的 产生 式 ， 如 图 4-3 T dM - 
所 示 。 因 而 ， 所 有 左 递归 的 产生 式 都 不 是 LLG. ÎN 
考虑 以 下 一 个 简单 的 左 线性 文法 A ! 
A—Ax IN | 


Ay | 

该 文法 产生 的 所 有 串 均 由 开头 , 后 接任 意 数 目 

的 x。 由 于 它 是 左 线性 的 ， 可 写 出 一 个 定义 了 相同 语 
言 的 正则 表达 式 ， 根 据 第 3 章 的 转换 规则 L.2 可 得 : 








yx* 
根据 这 一 正则 表达 式 ， 可 构造 一 个 右 线性 文法 ; VEN | 
AB 图 4-3， 左 递归 造成 的 问题 。 显 然 ， 读 磁头 
下 的 符号 y 必须 来 自 非 递归 的 产生 
B>xB 式 , 跟随 其 后 的 每 一 个 x 必须 来 自 
Boe 递归 产生 式 的 应 用 ， 但 是 从 顶部 
该 文法 不 再 是 左 递归 的 ,但 产生 相同 的 语言 。 如 看 ， 在 不 了 解 有 几 个 x 的 情况 下 ， 


果 令 zx 和 ?表示 由 终结 符 和 非 终结 符 组 成 的 任何 固定 无 法 知道 需要 应 用 几 次 递归 产生 式 
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的 串 ， 则 很 容易 看 出 ， 上 述 转换 规则 通过 添加 一 个 新 的 非 终结 符 《〈 如 B 所 示 )， 可 将 任意 左 递 
归 的 上 下 文 无 关 文 法 转换 为 右 递归 的 形式 。 然 而 ， 新 的 文法 是 LLNS? 
暂时 假设 x 和 ?分 别 为 终结 符 ， 计 算 其 选择 集 如 下 : 


Select 





—————— 
会 添加 任何 新 元 素 到 该 集合 中 。 接着 ， 可 根据 这 两 条 产生 式 的 First 集 构造 出 Select 集 。 在 第 三 
条 产生 式 中 ，First RMA, Select #45 Follow 集 相 同 。 

因而 可 见 ， 在 这 种 简单 情况 下 ， 我 们 成 功 地 使 得 该 文法 是 LL(1) 的 。 如 果 令 x 和 y 表示 由 
终结 符 和 非 终结 符 组 成 的 任何 固定 的 串 ， 并 将 非 终结 符 A 幅 入 到 一 个 更 大 的 文法 中 , 就 需要 证 
明 First(x)4 Followx(A) 不 存在 公共 元 素 。 常 见 的 程序 设计 语言 通常 就 是 这 个 样子 ， 这 往往 是 
精心 设计 的 结果 。 

当 我 们 将 上 述 简单 的 左 线性 文法 转换 为 右 线性 时 ， 我 们 不 再 将 该 文法 改造 为 正则 的 ， 尽 管 
得 到 的 正则 文法 仍 是 一 个 正确 的 上 下 文 无 关 文 法 形式 。 究 其 原因 ， 是 因为 该 文法 可 能 已 经 不 是 
LL(1) 的 : 

A~yB B— xB 
A>y B >x 

显然 ，A 的 两 条 产生 式 以 同一 终结 符 》 开头 ，B 的 两 条 产生 式 以 同一 终结 符 x 开头 。 在 一 
个 上 下 文 无 关 文 法 中 允许 空 产 生 式 的 原因 之 一 ， 是 因为 在 将 大 多 数 左 递归 转换 为 LL(K) 时 这 是 
必 不 可 少 的 。 

禁止 出 现 左 递归 的 非 终 结 符 是 所 有 LL(b 文 法 的 基本 要 求 ， 如 定理 4.4 所 示 : 

定理 4.4 如 果 G 是 一 个 LL( 昌 文法 ， 则 G 中 不 存在 左 递归 的 非 终结 符 。 

本 小 节 开头 部 分 的 讨论 给 出 了 该 定理 的 非 形式 化 证 明 , 形式 化 证 明 留 作 练习 (参见 练习 25). 

口 


45 公共 左 因子 


本 小 节 更 深入 地 讨论 一 种 特殊 情况 : 两 条 产生 式 的 左边 有 相同 的 串 。 考 虑 以 下 一 个 简单 的 
右 线性 文法 : 
AXy 
A-xz 
由 于 两 条 产生 式 均 以 单词 x 开头 ， 因 而 x 是 两 条 产生 式 的 选择 集中 的 惟一 元 素 ， 该 文法 显 
然 不 是 LL(1) 的 。 如 果 我 们 打算 为 该 语言 书写 一 个 正则 表达 式 ， 一 开始 可 能 会 写成 ; 
xylxz 
然而 可 使 用 正则 表达 式 的 分 配 律 将 它 转换 为 : 
x(ylz) 
再 将 它 改写 为 正则 文法 ; 
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A—xB 
Boy 
B >z 
此 时 , B 的 每 一 产生 式 均 以 不 同 单词 开头 , 这 些 单词 定义 了 B 的 选择 集 ; 新 的 文法 是 LLA) 
的 。 类 似 于 对 递归 的 处 理 ,， 我 们 会 发 现 , 如 果 x、y ze 表示 由 终结 符 和 非 终结 符 组 成 的 任意 串 ， 
则 只 要 First(y) 5 First(z) 不 包含 公共 元 素 ， 文 法 的 LL(O TE OUAIS EU 
将 一 个 非 LL( 旭 的 上 下 文 无 基文 法 转换 为 一 个 LL( 旭 文法 的 两 条 转换 规则 可 总 结 如 下 : 
1. 将 任意 如 以 下 左 列 所 示 的 左 递归 形式 转换 为 如 以 下 右 列 所 示 的 右 递归 形式 ， 其 中 了 B 是 
一 个 新 的 非 终 结 符 ，x 和 y 是 由 终结 符 和 非 终结 符 组 成 的 任意 串 。 注 意 ， 若 A 有 多 条 非 递 归 的 
产生 式 ， 新 的 非 终结 符 B 必须 添加 到 每 一 条 产生 式 的 结尾 :类似 地 ， 对 A 的 每 一 条 左 递归 的 
产生 式 ， 必 须 为 B 创建 一 条 新 的 右 递归 产生 式 取而代之 : 


A Ax A—yB 
Ay B— xB 
Boe 


2. 将 任意 如 以 下 左 列 所 示 的 公共 左 因子 形式 转换 为 如 以 下 右 列 所 示 的 形式 ， 其 中 B 是 一 
个 新 的 非 终结 符 ，x、y 和 z 是 由 终结 符 和 非 终结 符 组 成 的 任意 串 : 


A>xy A-—xB 
Axz By 
Boz 


回 到 文法 G,， 应 用 上 述 规 则 可 将 它 转 换 为 LL(1) 的 。 留 意 E 和 T 工 都 是 左 递 归 的 ， 故 引入 两 
个 新 的 非 终 结 符 S 和 P， 并 为 转换 得 到 的 文法 G 计算 新 的 选择 集 ， 如 表 4-4 所 示 。 在 转换 规 
则 中 ， 表 示 重 复 部 分 的 x 代表 了 产生 式 D.1 中 的 “+ T”， 规 则 中 的 终结 串 y 即 是 产生 式 D.2 中 
的 “T”。 可 以 相同 方式 转换 D.3 和 D.4; D.5 和 D.6 则 无 需 转换 。 


表 4-4 为 从 文法 G2 转换 得 到 的 Gz7y 计 算 First. Follow 和 选择 集 


G 一 8L Lo tO [| | (s 
ETS (s 
st (201 
T» FP FEST tQ 
Poe EES 
Fo (ŒE) ta 

Fon ET 


新 文法 也 可 像 以 前 那样 直观 地 阅读 ， 只 要 将 新 的 非 终结 符 理 解 为 “和 ”与 “ 积 ” 即 可 : 一 
个 表达 式 是 一 个 “项 ”后 面 接着 一 个 “和 ”;“ 和 ”这 部 分 要 么 是 加 号 后 面 接着 一 个 “项 ”与 另 
一 个 “和 ”要 么 为 空 。 类 似 地 ， 一 个 “项 ”是 一 个 “因子 ”后 面 接着 一 个 “ 积 ” 而 “ 积 ” 这 
部 分 要 人 么 是 乘 号 后 面 接着 一 个 “因子 ”和 另 一 个 “ 积 ” 要 么 为 空 。 

二 义 文 法 引发 了 另 一 类 问题 。 一 个 二 义 文 法 不 可 能 是 LL( 虽 的， 因为 二 义 产 生 式 的 两 个 不 
同 选择 会 产生 语言 中 的 同一 句子 。 有 可 能 二 义 性 并 不 是 某 一 语言 本 身 所 特有 的 ， 而 只 是 在 编写 
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文法 时 弄 错 了 ; 在 这 种 情况 下 ， 可 从 二 义 串 所 有 可 能 的 分 析 中 剔除 多 余 的 分 析 树 ， 从 而 解析 二 
义 性 。 

另 一 方面 ， 如 果 文 法 反映 的 语言 二 义 性 类 似 Pascal 语言 的 可 选 else 子 句 这 种 情况 ， 此 时 
无 法 将 文法 改写 为 无 二 义 的 ， 因 而 也 不 可 能 改写 为 LL( 提 的 ， 除 非 重新 定义 该 语言 。 


4.6 为 上 下 文 无 关 文法 扩展 正则 表达 式 运 算 符 


将 左 递归 的 或 含 公 共 左 因子 的 文法 改造 为 LL(O 文 法 时 , 使 用 了 正则 表达 式 表 示 其 中 间 形 
式 。 在 文法 中 引入 正则 表达 式 运 算 符 是 完全 可 行 的 ， 实 际 上 也 是 非常 有 用 的 。 这 相当 于 为 上 
下 文 无 关 文 法 扩充 了 正则 表达 式 中 用 于 表示 和 迭代 和 选择 运算 的 元 符号 ， 其 优点 是 以 一 种 清晰 
的 表示 法 更 直观 地 表达 一 个 由 终结 符 和 非 终结 符 组 成 的 序列 ， 而 不 是 使 用 递归 非 终 结 符 的 宛 
长 产生 式 。 | 

根据 表 3-5 中 将 正则 文法 转换 为 正则 表达 式 的 转换 规则 ， 并 在 转换 过 程 中 将 产生 式 右 部 的 
每 一 符号 看 作 一 个 单词 ， 可 得 到 文法 Go 的 扩展 文法 Gog: 

E>T("+"T) 
TOF("*"F) 
Fo"("E")"["n" 

从 这 一 文法 更 容易 看 出 ， 一 个 表达 式 E 以 一 个 项 T 开 头 , 后 面 接 着 任意 数目 的 、 由 加 号 连 
接 的 另外 的 项 ， 一 个 项 是 一 个 或 多 个 用 乘 号 连接 的 因子 ， 一 个 因子 要 么 是 圆 括号 中 的 表达 式 ， 
要 么 是 单词 n。 

注意 ， 从 这 一 文法 开始 ， 我 们 将 终结 符 写 在 引号 中 ， 以 免 混 淆 了 终结 符 和 元 符号 。 另 外 还 
应 注意 ， 通 常 不 可 能 将 一 个 上 下 文 无 关 文 法 转换 为 单个 正则 表达 式 ， 假 如 能 够 成 功 地 转换 ， 就 
是 以 说 明 使 用 上 下 文 无 关 文 法 是 没有 必要 的 ， 并 且 该 语言 应 可 描述 为 一 个 正则 文法 。 

扩展 后 的 文法 更 易 书写 ， 稍 后 将 看 到 ， 它 们 可 自然 地 转化 为 以 手工 方式 编写 的 分 析 程 序 代 
码 。 这 些 文法 仍 能 保持 LL OAS? 回答 是 肯定 的 ， 但 选择 集 的 计算 会 稍微 复杂 一 些 。 

有 一 点 很 重要 ， 即 认识 到 选择 集 仅 与 包含 选择 的 产生 式 有 关系 ; 一 个 不 含 任何 选择 的 非 终 
结 符 自然 对 任何 上 都 是 LL( 提 的 ， 无 需 考虑 其 选择 集 。 考 察 文法 G; 的 扩展 版 本 ， 乍 看 起 来 好 像 
不 需要 任何 选择 集 ， 但 事实 并 非 如 此 ， 因 为 文法 中 有 三 个 地 方 必 须 作 出 选择 。 最 明显 的 是 有 以 
下 选择 运算 ， 一 个 因子 要 么 是 一 个 在 括号 中 的 表达 式 ， 要 么 是 一 个 终结 符 x， 必须 从 中 作出 选 
择 。 还 有 虽 不 显眼 、 但 也 肯定 是 一 个 决策 点 的 ， 是 两 个 迭代 运算 符 之 一 : 在 每 一 轮 和 迭代 中 ， 都 
必须 决定 是 继续 循环 ， 还 是 终止 迭代 。 

在 扩展 的 上 下 文 无 关 文法 中 ， 每 一 个 选择 运算 和 每 一 个 迭代 运算 均 定义 了 一 个 决策 点 。 在 
任 一 决策 点 ， 都 须 为 每 一 选项 构造 其 选择 集 。 对 于 选择 运算 而 言 ， 必 须 为 每 一 选项 构造 一 个 选 
择 集 ， 对 于 迭代 运算 而 言 ， 则 必须 为 欠 代 体 构造 一 个 选择 集 ， 再 为 其 Follow 构造 另 一 选择 集 。 
在 每 一 决策 点 ， 所 有 选择 集 必须 无 公共 元 素 。 

令 w 为 一 个 扩展 的 上 下 文 无 关 文 法 的 产生 式 右 部 片段 , 且 x* 和 y 是 由 终结 符 和 非 终结 符 组 
成 的 任意 串 ， 其 中 可 能 含有 正确 赂 套 的 正则 表达 式 元 符号 : 

S.1 WR w=xly Select,( x ) = First, ( First, ( x ) Follow,(w)) 
Select, ( y ) = First, ( Firsty ( y ) Follow, (w)) 
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8.2 WR w = x* Select, ( repeat ) = Select, ( x ) = First,( First x) Follow,( w ) ) 
Select, ( quit ) = Follow, ( w ) 

观察 一 下 x 和 y 可 由 什么 样 的 串 组 成 。 在 选择 运算 中 , 最 多 只 有 一 个 选项 的 First 集 可 包含 
8g， 因 为 空 串 允许 选择 集 加 入 了 Follow 集中 的 元 素 , 并 且 如 果 有 多 于 一 个 的 选项 的 First 集 包 含 
了 sg， 则 它们 的 选择 集会 出 现 公 共 元 素 。 类 似 地 ， 一 个 迭代 运算 的 选 代 体 的 First 集 不 可 包含 E， 
因为 这 样 会 在 选择 集中 加 入 整个 Follow 集 ， 而 这 些 选择 集 是 不 能 有 公共 元 素 的 。 

通常 很 快 就 可 判断 一 个 串 是 否 可 空 的 ( 即 该 串 是 否 可 以 产生 一 个 空 串 )， 从 而 更 容易 发 现 
一 个 扩展 文法 不 是 LL(1) 的 。 乘 号 和 问号 运算 符 括 住 的 任何 串 都 是 可 空 的 ， 带 可 空 选项 的 任何 
选择 运算 也 足 可 空 的 。 两 个 可 空 串 的 连接 是 可 空 的 ， 但 如 果 两 个 串 都 不 是 可 空 的 ， 则 连接 结果 
也 不 是 可 空 的 。 一 个 单词 不 是 可 空 的 。 一 个 非 终结 符 是 可 室 的 ， 仅 当 其 产生 式 〈 指 扩展 文法 中 
的 单条 产生 式 ) 右 部 是 可 空 的 ， 否 则 该 非 终结 符 不 是 可 空 的 。 

回顾 文法 Gzs， 可 构造 以 下 选择 集 ， 看 看 它 是 否 依然 是 LL(D 的 ， 

E—>T("+"T )* 决策 点 : JERK 
Select( body) ={"+"} 
Select( exit) = Follow(("+" T)*) 
= Follow(E) 
={")",L} 
TOF("*"F)* 决策 点 : 和 迭代 
Select( body) = {"*"} 
Select( exit) = Follow( ("*" F)*) 
= Follow ( T ) 
={"# JUL") 1] 
Fo" Ey ln 决策 点 : 选择 
Select( left) ={"(") 
Select( right) = ( "n" } 

由 此 可 见 ， 每 一 决策 点 的 选择 集 均 无 公共 元 素 ， 该 扩展 文法 确实 是 LLOR. ER, RH 
构造 的 一 对 选择 集 与 为 扩展 前 的 文法 所 构造 的 相同 ; 这 令 人 确信 一 个 上 下 文 无 关 文 法 在 引进 正 
则 表达 式 运算 符 后 ， 无 论 是 文法 所 定义 的 语言 ， 还 是 实现 文法 的 确定 PDA 在 识别 语言 时 须 援 
用 向 前 看 符号 的 决策 点 ， 都 不 会 发 生 本 质 的 改变 。 


4. ”使 用 分 析 程 序 生 成 工具 


证 明 一 个 文法 是 否 LL(D 的 所 有 步骤 都 可 机 械 地 执行 ， 因 而 也 可 机 械 地 将 一 个 文法 转换 为 
一 个 确定 的 PDA. 一 个 机 械 化 执行 该 过 程 的 程序 称 为 分 析 程 序 生成 工具 。 已 有 几 款 分 析 程序 生 
成 工具 用 于 编译 程序 构造 的 教学 和 生产 。 本 书 第 10 章 介 绍 了 一 个 特定 的 分 析 程 序 生成 工具 
“TAG 编译 程序 ”的 结构 。 这 是 一 个 “编译 程序 一 编译 程序 ” 即 它 接受 一 个 扩展 文法 〈 还 进 一 
步 扩展 了 本 书 稍 后 将 介绍 的 树 变换 和 属性 ) 作为 源 语言 ， 产 生 一 个 Modula-2 或 Pascal 语言 源 
程序 实现 的 分 析 程 序 作为 输出 。 借 助 于 属性 语义 动作 ， 就 有 可 能 用 一 文法 给 出 一 个 完整 编译 程 
序 的 规格 说 明 ， 然 后 使 用 TAG 编译 程序 编译 该 文法 。 
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4.7.1 使 用 TAG 编译 程序 

TAG 编译 程序 接受 的 输入 文法 与 我 们 一 直 在 使 用 的 文法 在 形式 上 略 有 不 同 。 在 书写 同一 非 
终结 符 的 多 条 产生 式 时 ， 我 们 会 在 产生 式 的 左 部 多 次 重复 该 非 终 结 符 ， 而 由 换行 符 表示 一 条 产 
生 式 的 结束 ;而 TAG 编译 程序 的 源 语 言 与 许多 现代 程序 设计 语言 一 样 ， 换 行 符 并 没有 特殊 意 
义 ， 因 而 必须 采用 其 他 方式 分 隔 产生 式 。 单 个 非 终结 符 的 所 有 产生 式 必 须 出 现在 一 起 ， 并 且 只 
有 其 中 的 第 一 条 产生 式 指 定 该 非 终 结 符 。 每 一 非 终 结 符 的 最 后 一 条 产生 式 以 分 号 结束 。 

一 个 非 终 结 符 可 以 是 以 字母 开头 、 包 含 字母 和 数字 的 任意 标识 符 ， 少 量 保留 字 除外 。 除 在 
scanner 部 分 以 正则 表达 式 显 式 定义 的 少数 终结 符 之 外 ， 其 他 终结 符 均 用 引号 括 住 。 类 似 
Pascal 语言 ， 文 法 中 的 注释 用 花 括号 插 住 。 文法 必须 以 保留 字 tag 开头 ， 后 面 跟 着 文法 的 名 字 
和 一 个 冒号 ; 该 名 字 在 文法 的 结束 处 再 次 出 现 ， 它 的 前 面 是 保留 字 ena， 后 接 一 个 英文 句号 。 
附录 B 给 出 了 TAG 编译 程序 可 接受 的 文法 的 完整 规格 说 明 。 

代码 清单 4.1 将 文法 Ga 改写 为 TAG 编译 程序 可 接受 的 形式 ， 使 用 表示 整数 的 单词 NUM 
代表 ma。 代 码 清单 42 给 出 了 TAG 编译 程序 可 接受 文法 的 简明 文法 ， 它 本 身 就 采用 了 TAG 48 
译 程序 可 接受 的 形式 来 书写 。 


代码 清单 4.1 文法 Gos BJ TAG 编译 程序 可 接受 形式 





tag G2: 
scanner 
ignore 
MES ( 仅 忽略 空格 ) 
NUM 
-> ("O" .. "9")+; { 定义 整数 单词 } 
parser 
G 
-> E "."; C 用 小 数 点 显 式 地 表示 串 的 结尾 } 
E 
-> T ("+" T)*; { 可 使 用 正则 表达 式 的 扩展 } 
T 
一 > F P; ( 也 可 使 用 右 递归 形式 } 
P 
-> "*" P P; 
-> ; { 用 空白 表示 一 条 空 产 生 式 } 
> . . 
-> (" E ") | NUM; 
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代码 清单 4.2. TAG 编译 程序 可 接受 文法 的 文法 


tag TagGrammar: 


只 会 语法 部 分 的 一 个 简明 定义 } 
== 以 下 为 该 文法 的 扫描 程序 定义 部 分 } 


一 


Scanner { 
ignore { -- 保 留 字 ， 用 于 定义 被 忽略 的 字符 } 
-> | { 忽略 空格 和 行 结束 符 } 
-> "( ~" os { 忽略 用 花 括号 分 隔 的 注释 ) 
CHR { -- 定 义 扫描 程序 中 用 到 的 字符 单词 3 
-> (a ín ) { 行 结束 符 是 两 个 单 引号 或 两 个 双 引 号 } 
-> "n ( "&" | "(" ~") ot ( 除 单 引号 外 的 任何 其 他 符号 } 
-> ( ngyn | ong" en) ctu { 除 双 引号 外 的 任何 其 他 符号 } 
STR ( -- 定 义 分 析 程 序 中 用 到 的 字符 串 单词 } 
-> (on "g" | orq” "anj tm RERS SREE } 
-> (" mye j ngu nan) y rnr { 不 含 双 引 号 的 任何 串 } 
ID { -- 定 义 分 析 程 序 中 用 到 的 标识 符 单词 } 
-> ("a" "z" | "A" "Z") ( 以 字母 开头 } 
"a" "z" | "A" .. "Z" | "Q" ., "9")*; ({ 后 接 字 母 和 数字 } 
parser { == 以 下 为 该 文法 的 分 析 程 序 定 义 部 分 } 
TagGrammar { 第 一 个 非 终 结 符 是 目标 符号 } 
-> "tag" ID ™:" { 将 文法 命名 为 ID } 
("scanner" { 可 选 的 扫描 程序 定义 ， 由 两 部 分 组 成 : ) 
("ignore" ("->" scanre)« ";")? ( 忽略 的 字符 ， 以 及 } 
(ID ("-»" scanre)+ ";")« { 带 名 字 的 单词 ， 并 以 分 号 结束 } 
)? 
"parser" (parsrule)+ { 分 析 程 序 的 定义 接 在 扫描 程序 定义 之 后 } 
"end" ID "."; ( ID 必须 与 开头 的 文法 名 字 匹 配 ) 
scanre { 扫描 程序 的 一 个 正则 表达 式 是 ，} 
-> scanalt ("|" scanalt)*; { 用 “1?” 分 隔 的 选项 } 
scanalt 


-> (scanterm) *; 


一 个 选项 是 由 项 组 成 的 序列 } 


一 


scanterm 
-> "(" scanre ")" { 一 个 项 是 由 括号 插 住 的 正则 表达 式 ，} 
-> CHR (".." CHR)?; { 或 是 一 个 字符 或 字符 范围 } 
parsrule 
-» ID "-»" parsre { 分 析 程 序 的 规则 是 一 条 产生 式 ，} 
("->" parsre)* ";"; { 后 接 箭头 和 产生 式 右 部 } 
parsre 
-> parsalt ("|" parsalt)*; { 产生 式 的 每 一 右 部 均 为 一 个 正则 表达 式 } 
parsalt 


-» (parstem)*; 


TER: 分 析 程 序 的 选项 可 以 为 空 } 


os 
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parsterm 
-> ID { 注意 : 多 个 ID 不 可 直接 重复 出 现 ，} 
-> parsfact ("*" | "+" | "2" | );( 它们 必须 出 现在 parsfact 的 括号 中 } 
parsfact 
-> "(" parsre ")" { 要 么 是 一 对 括号 中 的 正则 表达 式 ，} 
| STR; { 要 么 是 一 对 引号 中 的 单词 串 } 


end TagGrammar. 
4.7.2 使 用 YACC 

在 实际 应 用 中 ， 最 流行 的 分 析 程 序 生成 工具 有 一 个 略 显 古 怪 的 名 字 : YetAnother Compiler 
Compiler， 通 常 简写 为 小 写 的 yacc。 尽 管 YACC 采用 简化 的 自 底 向 上 分 析 算 法 ， 而 不 是 本 章 讨 
论 的 有 更 多 限制 的 自 顶 向 下 算法 ， 但 是 因 其 应 用 广泛 而 值得 在 此 一 提 。 

LL() 文 法 是 YACC 所 接受 的 LR 文法 类 集 的 真子 集 , 因而 根据 本 章 规则 构造 的 任 一 正确 的 
LL(1) 文 法 均 可 由 YACC 接受 ，YACC 还 可 接受 某 些 带 左 递归 和 公共 左 因子 的 文法 , 而 LL 算法 
却 不 能 接受 这 类 文法 。 如果 YACC 不 能 接受 某 一 文法 ， 它 提供 的 拒绝 理由 从 自 顶 向 下 的 角度 看 
可 能 是 毫 无 意义 的 ， 但 可 以 肯定 的 是 该 文法 不 是 LL(1) 的 。YACC 无 法 处 理 本 书后 续 两 章 所 介 
绍 的 用 于 约束 检查 和 代码 生成 的 上 下 文 无 关 文 法 扩展 。 为 解决 这 一 类 问题 ，YACC 强制 要 求 编 
译 程序 设计 人 员 编 写 C 语言 的 源 代码 片段 。 然 而 在 目前 的 学 习 阶段 ， 这 还 不 成 问题 。 

从 语法 上 看 ，YACC 文法 的 形式 非常 类 似 本 书 使 用 的 TAG 表示 法 。 扫 描 程 序 的 定义 是 分 
开 定义 的 《使 用 程序 LEX)， 带 名 字 的 扫描 程序 单词 在 YACC 中 采用 指示 符 %token 显 式 地 声 
H. YACC 使 用 单个 冒号 “: ”分 隔 产生 式 规则 的 左 部 〈 非 终结 符 的 名 字 ) 和 右 部 ， 而 不 是 采 
用 右 箭头 “一 ”。 多 条 规则 合并 成 单个 右 部 ， 其 间 用 选择 运算 符 “1” 分 隔 (TAG 编译 程序 也 可 
接受 的 形式 )， 也 可 以 让 产生 式 左 部 的 非 终结 符 名 字 重 复出 现 多 次 。 终 结 符 用 单 引 号 括 住 ， 非 
终结 符 的 引用 是 简单 的 标识 符 ， 这 一 点 与 TAG 编译 程序 亦 相 同 。 每 一 产生 式 也 同样 以 分 号 表 
PARo . 

此 处 的 目的 并 不 是 提供 一 份 YACC 的 教程 ,任何 支持 YACC 的 系统 都 提供 了 丰富 的 文档 
帮助 用 户 学 习 如 何 使 用 它 ， 这 里 的 目的 是 向 读者 揭示 一 些 细微 的 差别 ， 令 本 章 的 内 容 更 加 容 
易 移 植 。 


4.8 递归 下 降 分 析 程 序 


虽然 本 书 的 重点 是 使 用 合适 的 工具 根据 一 个 上 下 文 无 关 文法 机 械 地 构造 分 析 程 序 , 但 LLA) 
文法 在 以 手工 编程 方式 实现 一 个 编译 程序 时 还 有 一 个 突出 的 优点 ， 就 是 将 一 个 扩展 的 LL(1) 上 
下 文 无 关 文 法 转换 为 诸如 Modula-2 这 类 传统 程序 设计 语言 的 递归 代码 时 存在 着 一 一 映射 。 这 
些 转换 规则 相当 简单 

文法 中 的 每 一 非 终结 符 在 程序 中 恰好 表示 为 一 个 无 参数 的 过 程 ， 习 惯 上 采用 与 非 终结 符 本 
身 相同 的 标识 符 命名 这 一 过 程 。 主 程序 调用 目标 符号 对 应 的 过 程 。 主 程序 还 将 初始 化 扫描 程序 ， 
并 将 向 前 看 符号 读 入 到 一 个 全 局 变量 ， 习 惯 上 该 全 局 变量 命名 为 NextToken。 一 个 非 终结 符 
的 所 有 产生 式 以 选择 运算 合并 为 扩展 文法 形式 的 单条 产生 式 ， 这 一 产生 式 右 部 形成 了 实现 该 非 
终结 符 的 过 程 体 代 码 的 基础 。 目 前 暂时 还 无 需 定义 过 程 中 的 局 部 变量 。 
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对 扩展 形式 的 产生 式 右 部 中 的 每 一 个 元 素 或 结构 ， 怡 好 对 应 Modula-2 语言 (或 Pascal 语 
言 ， 两 者 的 区 别 微不足道 ) 程序 中 的 一 个 元 素 或 结构 。 文 法 中 的 每 一 个 非 终 结 符 表示 为 对 同名 
过 程 的 调用 ; 每 一 终结 符 表 示 为 对 扫描 程序 的 调用 。 但 由 于 待 读 入 的 下 一 单词 已 存放 在 向 前 看 
符号 中 ,分 析 程 序 必须 先 将 向 前 看 符号 与 文法 中 的 终结 符 匹 配 ， 然 后 用 一 个 新 的 向 前 看 符号 取 
代 旧 的 向 前 看 符号 。 对 任 一 终结 符 x， 其 形式 为 : 


IF NextToken = x THEN 
GetToken 

ELSE 
Error 

END 


对 每 一 个 选择 运算 x1y， 其 中 x 和 y BEERS, AMA xA y 的 选择 集 : 


IF NextToken IN Select (x) THEN 

ELSIF NextToken IN Select (y) THEN 

ELSE 

Error 

END 

当然 ， 选 择 集 是 程序 员 预 先 计 算 好 的 常量 集 ， 不 必 真 的 写成 上 述 函数 调用 形式 。 

对 每 一 个 迭代 运算 x*， 必 须 计算 选择 集 以 证 明文 法 是 LL(1) 的 ， 但 具有 x 的 选择 集会 用 于 
程序 代码 中 : 


WHILE NextToken IN Select(x) DO 
x 
END 


在 上 述 这 些 结构 中 , x 均 表 示 串 x 根据 相同 规则 转换 成 的 Modula-2 语言 代码 。 一 个 空 串 将 
翻译 为 无 任何 代码 ， 尽 管 在 这 种 情况 下 可 能 需要 检查 Follow 集 以 准确 地 发 现 错误 。 

例如 ,考虑 代码 清单 4.1 所 示 的 LL(1) 文 法 Gog, 代码 清单 4.3 给 出 了 一 个 实现 同一 文法 的 、 
采用 Modula-2 语言 编号 的 递归 下 降 分 析 程序 〔 其 中 未 展示 扫描 程序 的 过 程 Getoken)。 

在 Modula-2 代码 的 许多 地 方 ， 出 现 了 多 次 测试 向 前 看 单词 是 否 为 同一 个 值 ， 这 是 从 文法 
非常 机 械 地 翻译 为 Modula-2 代码 的 结果 。 通 常 一 个 带 优化 功能 的 编译 程序 〈 或 者 一 位 勤奋 且 
细心 的 程序 员 ) 可 消除 这 些 宛 余 的 测试 。 


代码 清单 4.3 ”文法 Gzs 的 递归 下 降 分 析 程 序 


MODULE G2; 
TYPE 
Token - (Plus, Star, Left, Right, NUM, Dot); 
VAR 
NextToken: Token; 
FROM Somewhere IMPORT 
Getoken, InitScanner, Error; 


PROCEDURE E; (* BET r.p T DABIS *) 
PROCEDURE F; 
BEGIN 
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IF NextToken IN Token{Left} THEN (* 第 一 个 选项 *) 
IF NextToken = Left THEN 
Getoken (* 读 入 单词 “(” x) 
ELSE 
Error 
END; 
E; (* 递归 调用 非 终结 符 E *) 
IF NextToken = Right THEN 
Getoken (* 读 入 单词 “)” *) 
ELSE 
Error 
END 
ELSIF NextToken IN Token{NUM} THEN (* 第 二 个 选项 *) 
IF NextToken = NUM THEN 
Getoken (* 读 入 单词 “NUM” *) 
ELSE 
Error 
END 
ELSE (* 非 上 述 两 种 情况 *) 
Error 
END 
END F; 


PROCEDURE P; 
BEGIN 
IF NextToken IN Token{Star} THEN (* 第 一 个 选项 *) 
IF NextToken = Star THEN 
Getoken 
ELSE 
Error 
END; 
F; 
P 
ELSIF NextToken IN Token{Plus, Right, Dot) THEN (* P 的 Followl 集 *) 
(* 第 二 个 选项 为 空 产 生 式 *) 
ELSE 
Error 
END 
END P; 


PROCEDURE T; 
BEGIN 
F; 
P 
END T; 
BEGIN (* E *) 
T; 
WHILE NextToken IN Token{Plus} DO 
IF NextToken - Plus THEN 
Getoken 
ELSE 
Error 
END; 
T 
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END E; 


BEGIN (* G2 *) 
InitScanner; 
Getoken; 

E: 


IF NextToken - Dot THEN 
(* Accept *) 
ELSE 
Error 
END 
END G2. 


4.9 递归 下 降 分 析 程 序 作为 下 推 自 动机 


本 章 一 开始 就 形式 化 地 介绍 了 下 推 自 动机 ， 然 后 展示 了 如 何 从 一 个 LL(1) 的 上 下 文 无 关 文 
法 构造 一 个 递归 下 降 分 析 程 序 ， 接 下 来 将 看 看 这 样 的 一 个 程序 是 否 正确 地 构成 一 个 PDA。 

回顾 一 下 ， 一 个 PDA 是 一 个 七 元 组 ， 由 输入 字母 表 >、 状 态 集 Q、 变 迁 集 A、 栈 字母 集 H、 
初始 栈 符号 ho ERE qo 以 及 一 个 〈 可 能 为 空 的 ) 终结 状态 集 F 组 成 。 在 分 析 程 序 中 ， 输 
入 字母 表 显 然 就 是 扫描 程序 返回 的 单词 集合 。 

执行 一 个 Modula-2 程序 的 计算 机 可 理解 为 具有 有 穷 数 目的 状态 ， 即 源 程序 中 语句 的 行 数 ， 
更 准确 地 说 是 对 应 的 机 器 指令 的 位 置 。 在 任 一 时 刻 ， 仅 有 一 条 原子 语句 是 活跃 的 ， 程序 以 一 种 明 
确定 义 的 方式 从 一 条 语句 前 进 到 下 一 语句 。 从 语句 前 进 到 下 一 语句 对 应 于 从 状态 到 状态 的 变迁 。 

所 有 支持 递归 的 程序 设计 语言 必须 将 返回 地 址 以 某 种 栈 的 形式 保存 在 内 存 中 , 这 正 是 我 们 所 
说 的 PDA 的 栈 。 因 而 ， 栈 字母 表 是 状态 编号 的 子 集 ， 表 示 过 程 调用 语句 的 位 置 。 大 多 数 变迁 规 
则 保持 栈 的 内 容 不 变 ;， 尽管 从 形式 上 要 求 弹出 栈 顶 符号 ， 但 这 类 规则 立即 将 该 符号 压 回 栈 中 。 过 
程 调用 语句 是 例外 ， 它 们 还 压 入 各 自 的 语 名 编号 以 及 每 一 过 程 的 END HA). END 语句 不 是 按 源 
代码 中 的 次 序 前 进 到 下 一 语句 ， 而 是 返回 跟随 在 过 程 调用 《从 栈 中 弹出 其 地 址 ) 后 的 语句 。 

初始 栈 符 号 是 操作 系统 的 命令 行 解释 程序 ， 或 者 是 一 个 可 终止 程序 在 执行 完毕 后 通常 返回 
到 的 任何 程序 。 该 PDA 在 栈 为 空 时 停机 ， 起 始 状 态 是 主 程序 的 BEGIN 语句 。 

至 此 ， 通 过 展示 在 一 个 递归 下 降 分 析 程 序 中 如 何 建 模 PDA 的 每 一 个 形式 化 组 成 部 分 ， 我 
们 确信 采用 手工 方式 正确 编码 的 分 析 程 序 就 是 一 个 下 推 自动 机 。 在 不 损失 方便 性 的 前 提 下 ， 我 
们 再 次 维护 了 形式 化 的 正确 性 。 


小 结 


本 章 的 重点 是 根据 一 个 上 下 文 无 关 文法 机 械 地 构造 一 个 分 析 程 序 的 技术 和 工具 。 本 章 首先 研究 了 下 
推 自动 机 与 上 下 文 无 关 语 言 之 间 的 关系 。 据 定义 ， 上 下 文 无 关 语言 中 的 串 由 相应 的 上 下 文 无 关 文 法 推导 
出 来 。 本 章 说 明了 对 任 一 上 下 文 无 关 文 法 ， 均 存在 一 个 不 确定 的 下 推 自动 机 接受 该 上 下 文 无 关 文 法 定义 
的 语言 。 

本 章 介 绍 了 LL() 文 法 ， 这 是 上 下 文 无 关 文 法 的 一 个 受 限 的 子 集 。 对 任 一 LL( 和 文法 ， 均 存在 一 个 确 
定 的 下 推 自 动机 ， 通 过 构造 最 左 推导 且 在 每 一 步 推导 中 向 前 看 不 超过 个 输入 符号 ， 可 接受 该 文法 所 定 
义 语 言 中 的 任意 串 。 也 存在 不 满足 LL( 昌 性 质 的 文法 ， 其 中 的 许多 文法 可 通过 消除 左 递归 和 公共 左 因子 转 
S LL). 
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本 章 还 给 出 了 从 LL(I) 文 法 构造 一 个 分 析 程 序 的 实用 步骤 ， 既 可 借助 于 分 析 程 序 生成 工具 自动 地 完 
成 ， 也 可 不 加 思索 地 用 特定 程序 设计 语言 的 结构 替换 文法 中 的 成 份 ， 很 容易 以 手工 方式 编写 一 个 递归 下 
降 分 析 程 序 。 


“AHS ial 
LL() ”从 左 到 右 (Left-to-right) 扫描 输入 串 、 分 析 时 采用 最 左 〈Leftmost) 规范 推导 ， 向 前 看 不 超过 大 
个 输入 符号 。 


NDPDA NonDeterministic Push-Down Automaton， 不 确定 的 下 推 自动 机 。 
PDA ”Push-Down Automaton， 下 推 自 动机 。 
TAG Transformational Attribute Grammar， 变 换 属 性 文法 ， 本 书 特有 的 “编译 程序 一 编译 程序 ”的 输 
入 语言 。 
天 键 木 语 
ambiguous 〈 二 义 的 ) ” 指 无 法 确定 地 分 析 一 个 文法 亦 即 在 推导 过 程 中 的 一 步 或 多 步 ， 有 多 于 一 条 的 
规则 可 以 应 用 到 推导 过 程 。 
configuration (#8) ”用 ( q, w, c ) 表 示 PDA 的 状态 为 g， 待 输入 的 未 读 进 符号 串 为 w， 以 及 在 PDA 的 
栈 中 有 一 个 特定 的 串 c. 
compiler compiler (编译 程序 一 编译 程序 ) ” 带 有 附加 语义 描述 的 分 析 程 序 生 成 工具 。 
decision poit (决策 点 ) ”扩展 的 上 下 文 无 关 文 法 中 ， 一 条 重 写 规则 右 部 的 选择 运算 符 或 迭代 运算 符 。 
extended grammar (扩展 文法 ) ”书写 文法 时 ， 在 一 条 或 多 条 产生 式 中 使 用 了 正则 表达 式 的 运算 符 。 
left-factors (AAT) ” 指 两 条 或 多 条 产生 式 右 部 的 左 端 具有 相同 的 串 ， 且 产生 式 左 部 为 同一 非 终结 符 ， 
参阅 4.5 7%. Pd: 
AO0BII 
A01 
left-recursive ( 左 递归 )  ” 即 一 条 形 如 A S Ax 的 产生 式 ， 参 阅 44 节 。 
LL(k) grammar (LL( 千 文法 ) ”从 该 文法 可 构造 一 个 确定 的 自 项 向 下 PDA, 该 PDA 只 需 在 输入 带 上 向 前 
看 最 多 k 个 符号 。 
LL(1) grammar 《LL(1) 文 法 ) ”是 LL(k) 文 法 的 最 常见 形式 , 也 最 容易 使 用 程序 设计 语言 手工 转换 为 PDA. 
lookahead (向 前 看 ) ” 即 观 察 输 入 中 的 下 一 个 单词 ， 但 不 读 入 它 。 l 
lookahead set (向 前 看 符号 集 ) 参阅 selection set 条 目 。 
nullable string 《可 空 的 串 ) ”是 由 终结 符 和 非 终 结 符 组 成 的 串 ， 作 为 语言 中 某 一 句子 的 组 成 部 分 ， 可 生 
成 一 个 空 串 。 
parser 分 析 程 序 》 
CD 一 个 识别 器 《语言 中 所 有 串 的 接受 器 )， 输 出 每 一 个 被 接受 的 输入 串 的 分 析 或 推导 结果 ， 参 说 
recognizer 条 目 。 
(2) 一 个 语法 分 析 程 序 。 
parser generator (分析 程序 生成 工具 ) “用 于 根据 一 个 输入 文法 〈 通 常 是 一 个 上 下 文 无 关 文法 ) 生成 语 
法 分 析 程 序 的 软件 工具 。 
PDA (下 推 自动 机 》 
deterministic 确定 的 PDA) ”对 任 一 给 定格 局 ， 仅 有 一 种 可 能 的 变迁 。 
nondeterministic (THERI PDA) 意味 着 一 个 给 定 的 格局 可 能 有 多 个 变迁 。 
PDA transition (PDA 变迁 ) fin 
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6: Qx(ZUE)XHoO QxH* 
的 偏 函数 ， 其 中 5 属于 PDA 变迁 规则 集 A，Q 是 状态 集 ， 三 是 语言 的 字母 表 ，H 是 栈 字母 表 。 这 是 一 
个 偏 函数 ， 因 为 并 不 是 所 有 状态 与 字母 表 符号 的 组 合 都 定义 了 一 个 变迁 。 
phrase structure (短语 结构 ) ”描述 单词 如 何 组 合 在 一 起 ， 形 成 一 个 语法 上 正确 的 程序 。 
production (产生 式 ) ” 即 重 写 规则 。 
recognizer (识别 器 ) 
(1) 一 个 过 程 ， 接 受 属 于 某 一 语言 的 所 有 串 ， 拒 绝 所 有 其 他 的 串 。 
(2) 一 个 自动 机 。 
recursive-descent (递归 下 降 ) ”形容 一 个 LL(1) 文 法 的 分 析 程 序 ， 其 中 每 一 非 终结 符 恰好 表示 为 一 个 无 
参数 的 过 程 ， 文 法 中 的 每 一 终结 符 则 表示 为 对 扫描 程序 的 一 次 调用 。 
selection set GFE) ”在 Select ( A> w ) 中 包含 了 从 非 终 结 符 A 可 推导 出 的 所 有 串 的 前 级 ， 这 些 前 
缀 的 长 度 为 上。 亦 称 向 前 看 符号 集 。 
semantic analysis〈 语 义 分 析 ) ”确定 一 个 程序 在 计算 上 的 含义 。 
set (#8) ”表示 对 象 聚集 的 一 个 原始 数学 概念 。 
First, ( w ) 可 从 上 串 w 推导 出 的 、 由 大 个 或 更 少 单词 组 成 的 所 有 终结 符 串 组 成 的 集合 〈 构 造 该 集 
合 的 规则 可 参阅 本 章 4.3.1 节 )。 
Follow,(N) REFRA N 推导 出 的 任意 子 串 之 后 、 由 上 个 或 更 少 单词 组 成 的 所 有 终结 符 串 
组 成 的 集合 。 
Select, ( A > w ) = Ers(CFirsa(w)Follow(A))， 也 称 为 选择 集 ， 包 含 可 从 A 推导 出 的 串 的 长 度 为 
k ATR 
TAG compiler (TAG 编译 程序 ) ”是 一 个 “编译 程序 一 编译 程序 ” 接受 一 个 扩展 文法 作为 源 语言 ， 生 成 
一 个 分 析 程 序 作为 输出 。 
top-down parse CERIS RAD) ”从 栈 中 的 目标 符号 出 发 ， 在 每 一 步 的 句 型 中 不 断 重 写 最 左 的 非 终结 
符 ， 总 是 选择 可 最 终 导致 与 输入 串 匹 配 的 产生 式 。 


l. Ca) 说 明 Po 接受 串 c， 并 拒绝 串 aacb 和 abc. 
Cb) 说明 Po 接受 串 aacbb 和 c， 并 拒绝 串 abc. 
(c) 说 明 Po" 接 受 串 aacbb 和 c， 并 拒绝 串 abc. 
2. 将 以 下 空 栈 停机 的 PDA 转换 为 等 价 的 终 态 停机 PDA. 
P=({a,b},{q},4,{S,A,B, a,b },S,q,{}) 
其 中 : 
A-[8(q. e $)-(qaA), 
8(q. e S)=(q, bB), 
9(q,6 A) - (q.aA), 
8(q,£ A) - (qQ, bB), 
8(q, 8 B)-(q D), 
8(q,4,a)=(q,€), 
3(q,b,b)=(qe) } 
3. 将 以 下 终 态 停机 的 PDA 转换 为 等 价 的 空 栈 停机 PDA. 
P=({4,b,c},{p,qr},A,(S,A,B,a,b,c,h},h,p,{r}) 
其 中 : 
A={6(q,e,8)=(q,aAc), 
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(q£, S) -(qQ, bB), 
8(9,£,A)2(q. a A), 
5(q,6&,A)=(q,5B), 
5(q,€,B)=(q,b), 
5(qaa)=(qe)， 
9(q, b, b)-(q E), 
9(9,6c)-(q €), 
6(p£h)z(q, Sh), 
8(q£h)-(rh) } 
4. 将 以 下 上 下 文 无 关 文 法 分 别 转换 为 一 个 不 确定 的 PDA: 


(a) S—»01A0 (b) SS AacB 
So0BI Sab 
A—01A A>Cba 
A—01 B— bc 
B 一 0B1 C>cAbB 
B—0SI Cc 


5. 给 出 以 下 PDA 在 识别 下 列 串 时 的 每 一 步骤 ， 

P=({0,1},{S,A,B,C },A,{S,A,B,C,0,1},h,S,{C}) 

其 中 ， 

A={8(S,0,h)=(A,h), 
8(S,1,h)=(B,h), 
8(A,0,h)=(S,h), 
8(A,1,h)=(C,h), 
8(B,0,h) -(C,h), 
8(B,1,h)=(S,h) } 

(a) 0011001 
(b) 1100110 
6. 给 出 以 下 NDPDA 在 识别 下 列 串 时 的 每 一 步骤 : 
P=({a,b,c}, {q} A, {S,A, B,C, a,b,c },S,q,{}) 
其 中 : 

A={6(q,&,5)=(g,aAbc), 
8(q,&,S)=(q,SbB), 
5(q,£,A)=(q,aAb), 
8(q,£, A)-(q, Bab), 
5(q,€,B)=(q,BbC), 
5(q,€,B)=(q,bC), 
5(q¢6,C)=(qc), 
§(q,€,C)=(q,e), 
8(q,4,a)=(4q,£), 
8(q, b, b)-(q.£), 
8(q6c)2(q €) } 

(a) aabcabbbc 
(D abcbcabbcbb 


H 4 
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7. AAF First... Follow, 和 Select, 集 ， 并 指出 该 文法 是 否 LL(1) 的 。 


(a) $—0AS (b) A>aB (c) SoO-«B GodG 
$10 AbC S 一 一 B G- eC 
A>! Bob SodA Got 
A-—0SA BoaA BodA C- 4H 

B—bD A—dAÁ C 一 一 再 

CoaD A—.F C-»dD 

CobA A—eC H-dD 

Coa Ate D>dE 

D>aC FodG Doe 

了 一 DB E>e 
8. 为 以 下 文法 构造 First;. Follow; fll Select, 集 ， 并 指出 该 文法 是 否 LL(2) 的 。 

(a) A>aB | (b) A—aAa 
A>bC AbAb 
Ab Aaa 
BaD Abb 
C+ aB Aa 
CobC A—b 
Cb 
DoaE 
Da 
E ->aB 
E>bC 
E >b 

9. 为 以 下 文法 构造 Firsg、Foliows 和 Selects 集 ， 并 指出 该 文法 是 否 LL(3) 的 。 

(a) S>asSc (b P 一 P"&"P 
S— aAb P>P"V"P 
S— cB P+P">"P 
A—abA P>P"="P 
Aa P 一 "一 "了 
BobB P 一 "P” 

B—bcB P = "Q" 
P> "R" 


10. 为 以 下 文法 构造 合适 的 First. Follow 和 Select 集 ， 从 而 确定 需要 几 个 向 前 看 符号 〈 亦 即 该 文法 是 否 
LL(1)、LL(2) 等 )。 


(a) A 一 8 (b) A201B 
A—10B A 一 0C 
B 一 All B->0C10 
B0 Co10D 
了 一 01 
了 一 0 


11. 消除 以 下 文法 中 的 所 有 左 递归 和 公共 左 因子 。 
(a) SO SaA (b S— aA (c) SOS Aa (d) SOAb 





12. 


15. 
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SobB S 一 DB Sob 
AaB AbA AOSB 
Ac AObB Bab 
B— Bb B— cB 
Bod B >c 
(e) S$ 一 A0 (80A (p E E+E 
SoBIO So1B EE*E 
A—BOB A>AB E> (D 
AOBIB A->AI En 
B0 A-—01 
B- 1 B 一 01 
B 一 00 
将 以 下 的 简单 文法 转换 为 一 个 扩展 文法 。 
S50A 
S->1B 
A 一 Al0 
A-0 
B—018S 
B1 


， 为 以 下 扩展 文法 构造 Selech 集 ， 并 指出 各 文法 是 否 LL(1) 的 。 


(a) SS (a AID B)* (p) S—0(011)*I(AIOB) 
A—(aay*b A—(01lIg)ICEB)* 
B-(ba)la* B—(01100)* 

(o RGN "Na" dE ("+ "=" )? d d?)? 


的 。 
GoS. 
SoOixtSeS 
SoOixtS 
Sp 
分 别 给 出 以 下 文法 的 一 个 例子 : 
(a) 是 LL(2) 的 ， 但 不 是 LL(1) 的 。 
(b) 是 LL(3) 的 ， 但 不 是 LL(2) 的 。 
(c) 无 左 递归 ， 但 对 于 任意 大 都 不 是 LL(O 的 。 


. 判断 以 下 文法 是 否 LL(D 的 ;， 如果 是 ， 请 指出 的 值 。 


A>yBIzBlylz 
BoxBlyBlyle 


.完成 引 理 4.1 的 证 明 。 

. 通过 构造 方式 ， 以 下 推 自动 机 的 术语 证 明定 理 4.2。 

， 通 过 构造 方式 ， 以 上 下 文 无 关 文法 的 术语 证 明定 理 4.2。 
.采用 练习 19 中 的 构造 方法 ， 为 练习 4 所 定义 的 两 个 语言 的 并 LI + Lz 编写 一 个 上 下 文 无 关 文法 ， 并 


.以 下 文法 表示 了 Pascal 语言 中 的 二 义 i£ 语句 。 试 写 出 一 个 与 Pascal 语言 的 if 语句 语法 相同 的 无 二 
义 上 下 文 无 关 文 法 ， 即 i 产生 相同 的 语言 。 注 意 ， 据 Pascal 语言 的 定义 ，else 子 句 总 是 与 最 内 层 的 
if 语句 相 匹 配 。 证 明 你 的 文法 是 LL(1) 的 ， 因 而 也 是 无 二 义 的 ;， 否 则 说 明 为 什么 它 不 可 能 是 LL(1) 
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给 出 两 个 串 的 推导 例子 。 

21. 采用 定理 4.3 的 证 明 所 示 的 构造 方法 ， 为 练习 4 所 定义 的 两 个 语言 的 积 La 。L2 编写 一 个 上 下 文 无 关 
文法 。 

22. 证 明 如 果 世 是 一 个 上 下 文 无 关 语言 ， 则 L* 也 是 一 个 上 下 文 无 关 话 言 。 提 示 : 采用 构造 方式 的 证 明 
技术 。 

23. 给 出 L# 中 两 个 串 的 推导 例子 ， 要 求 ， 
(a) 首先 使 用 练习 4 (a) 的 上 下 文 无 关 文 法 ， 写 出 L* 的 上 下 文 无 关 文 法 。 
Cb) 然后 使 用 在 Ca) 部 分 得 到 的 L* 给 出 两 个 串 的 推导 例子 。 

24， 练 习 22 的 结论 是 否 表 明 如 果 工 是 LL() 的 ， 则 L* 也 是 LL(1) 的 ? 证 明 你 的 判断 。 

25. 《定理 4.4) 证 明 如 果 G 是 一 个 LL(D 文 法 ， 则 G 不 会 有 左 递 归 的 非 终 结 符 。 提 示 : 证 明 该 定理 的 逆 
否 命 题 ， 即 如 果 G 有 左 递归 的 非 终 结 符 ， 则 G 对 任意 都 不 是 LL(A) 的 。 

26. 证 明定 理 4.4 的 逆 命 题 不 成 立 。 提 示 : 假设 逆 命 题 为 真 ， 再 找 出 一 个 反例 。 

27. 证 明 如 果 对 上 下 文 无 关 文 法 G 的 每 一 非 终 结 符 A， 向 前 看 符号 集 Select, ( A  w ) 是 不 相交 的 ， 则 文 
IE G Æ LLOH o 

28.〈 二 义 性 规则 ) 证 明 如 果 G 是 一 个 LL( 文 法 ， 则 G 是 无 二 义 的 。 提 示 : KAREE. 

29. 证 明 二 义 性 规则 的 逆 命 题 不 成 立 。 提 示 : 练习 26 采用 的 证 明 技 术 也 可 应 用 到 本 练习 。 





指出 下 列 陈述 是 否 正确 。 
1. 如 果 工 是 一 个 上 下 文 无 关 语 言 ， 则 L* 也 是 一 个 上 下 文 无 关 语 言 。 
2， 如 果 一 个 上 下 文 无 关 语 言 是 LL(D 的 ， 则 其 选择 集 不 必 是 不 相交 的 。 
3. 如 果 一 个 LL( 提 文法 的 分 析 程 序 在 当前 输入 位 置 的 右边 向 前 看 上 - 1 个 输入 符号 ， 则 它 能 够 以 确定 的 方 
式 运行 。 
后 面 的 3 个 问题 与 以 下 文法 G 有 关 : 
A—AxIAylIxBly 
BoxyBlxxBle 
. 文法 G 是 左 递 轨 的 ， 且 无 公共 左前 缀 。 
. 文法 G 不 是 左 递归 的 ， 但 有 公共 左前 缀 。 
可 采用 消除 公共 左 因子 的 方法 消除 文法 G 中 的 左 递归 。 
. 一 个 下 推 自动 机 识别 的 语言 是 上 下 文 无 关 的 。 
.如 果 工 是 一 个 上 下 文 无 关 语言 ， 则 总 是 可 找到 一 个 下 推 自动 机 接受 L. 
， 一 个 左 递归 的 文法 对 任意 大 都 不 是 LL( 和 文法 。 
10. 以 下 文法 不 是 LL(1) 的 : 
A—O0AIOBIE& 
B—0BIIBIOII1 


编译 程序 实验 项 目 


l. 通过 为 每 一 条 产生 式 构造 选择 集 ， 证 明 你 在 第 2 章 编写 的 上 下 文 无 关 文 法 是 LL(1) 的 。 如 果 该 文法 不 
是 LL(1) 的 ， 将 它 转换 为 LL(1) 文 法 。 

2. 将 你 的 文法 录入 到 一 个 计算 机 文件 ， 并 作为 TAG 编译 程序 或 YACC 等 分 析 程序 生成 工具 的 输入 。 你 
可 能 需要 将 产生 式 修改 为 分 析 程 序 生成 工具 可 接受 的 形式 。 如 果 你 正确 地 完成 了 第 1 步 ， 文 法 无 需 太 
多 的 修改 即 可 被 分 析 程 序 生成 工具 接受 。 

3. 编译 你 的 分 析 程 序 。 


O O NAU A 
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4. 编写 几 个 小 程序 ， 用 编译 好 的 分 析 程 序 分 析 它 们 。 说 明正 确 的 程序 会 被 你 的 分 析 程 序 接受 ， 而 有 语法 
错误 的 程序 则 被 拒绝 。 
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第 5 章 ， 语义 分 析 与 属性 文法 


本 章 旨 

。 为 上 下 文 无 关 文法 扩展 属性 和 语义 规则 

。 为 LLCD) 递 归 下 降 分 析 程 序 扩展 两 种 形式 的 属性 

e 介绍 约束 属性 值 的 断言 

。 为 演示 技术 而 开发 一 个 属性 文法 样板 和 相应 的 递归 下 降 分 析 程序 

。 使 用 属性 强制 规定 标识 符 的 预先 声明 和 强 关 型 检查 
5.1 简介 

给 定语 法 的 一 个 文法 规格 说 明 后 ， 在 编译 程序 中 正确 地 分 析 输入 源 程序 的 语法 并 不 困难 ， 
但 程序 设计 语言 的 组 成 不 单 只 是 语法 和 短语 结构 。 现 代 程序 设计 语言 要 求 程序 中 使 用 的 标识 符 
必须 声明 ， 以 及 对 变量 名 或 过 程 名 的 使 用 必须 与 其 声明 相 一 致 。 正 如 第 2 章 所 述 ， 将 一 个 标识 
符 与 其 声明 进行 匹配 需要 一 个 上 下 文敏 感 语言 。 

与 其 去 招惹 “线性 有 界 自动 机 ”这 个 大 麻烦 ， 导 致 不 确定 性 和 不 完备 的 形式 化 到 处 泛滥 ， 
还 不 如 采用 以 上 下 文 无 关 文法 和 确定 的 下 推 自动 机 为 基础 的 更 保守 方法 ， 只 要 能 解决 最 迫切 的 
问题 即 可 。 属 性 文法 就 此 诞生 。 

5.2 ”属性 文法 

在 非 计算 机 时 代 ， 一 个 对 象 或 人 的 属性 是 描述 该 对 象 或 人 的 特性 、 品 质 、 特 征 等 ， 例 如 一 
个 人 的 幽默 感 或 一 个 对 象 的 颜色 。 将 分 析 树 的 结 点 视 为 对 象 ， 我 们 也 可 为 位 于 某 一 结 点 的 非 终 
结 符 所 指称 的 句子 片段 描述 某 些 属性 ， 例 如 它 的 数值 “假如 它 是 一 个 表达 式 )、 它 所 命名 的 过 
程 或 变量 在 内 存 中 的 位 置 (假如 它 是 一 个 标识 符 )、 它 可 见 的 标识 符 集合 (在 诸如 Pascal 或 
Modula-2 等 支持 作用 域 的 语言 中 ) 等 。 一 个 上 下 文 无 关 文 法 定义 了 串 的 语法 ， 却 没有 定义 任何 
属性 ， 而 这 些 属性 显然 是 我 们 要 编译 的 语言 的 组 成 部 分 。 因 而 ， 为 上 下 文 无 关 文法 扩展 属性 及 
其 强加 给 语言 必须 满足 的 约束 是 非常 实用 的 。 

一 个 属性 文法 是 一 个 三 元 组 A= (G VEF)， 它 由 上 下 文 无 关 文法 G、 各 种 不 同属 性 的 有 穷 
RV 以 及 属性 断言 《 即 关于 属性 的 谓词 ) 的 有 穷 集 F 组 成 。 每 一 属性 与 文法 中 的 单个 非 终结 符 
或 终结 符 相关 联 ， 每 一 断言 则 与 单条 产生 式 相关 联 ， 因 而 仅仅 引用 到 与 该 产生 式 的 左 部 或 右 部 
中 的 终结 符 或 非 终结 符 相关 联 的 属性 。 语 言 G 中 的 一 个 串 也 在 语言 A 中 ， 当 上 且 仅 当 这 个 串 的 
分 析 树 上 终结 符 和 非 终结 符 结 点 附带 的 所 有 属性 可 令 所 有 的 断言 成 立 。 约束 程序 是 编译 程序 的 
一 部 分 ， 负 责 校 验 所 有 断言 对 于 当前 正 被 编译 的 程序 是 否 成 立 。 

例如 ， 考 虑 一 个 小 型 表达 式 文法 : 

E>T+TIT"OR" T 
T — num | "TRUE" | "FALSE" 

图 5-1 是 该 文法 应 用 到 串 “3 + 4” 的 结果 。 每 一 个 项 T 都 有 一 个 表示 类 型 的 属性 EA 

是 int (如 果 它 是 一 个 整数 常量 )， 要 么 是 bool (如 果 它 是 一 个 布尔 量 )。 表 达 式 的 非 终结 符 可 以 
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有 一 个 与 这 两 个 属性 相关 的 断言 : 这 两 个 属性 必须 是 相同 的 。 


图 5-1 一 个 简单 的 带 属性 的 分 析 树 


属性 〈 至 少 在 概念 上 ) 是 一 个 静态 的 值 ， 而 不 是 变量 ， 既 可 描述 终结 符 ， 也 可 描述 由 属性 
所 属 的 非 终结 符 所 产生 的 串 ; 但 对 于 语言 中 不 同 的 串 ， 以 及 对 于 这 些 终结 符 或 非 终结 符 的 不 同 
实例 ， 属 性 的 值 可 能 不 同 。 因 而 属性 的 值 受 到 引用 它 的 那些 断言 的 约束 。 断 言 可 能 强行 指派 一 
个 特定 的 属性 值 《 如 上 例 所 示 )， 也 可 能 只 是 限定 属性 必须 属于 某 一 取 值 范围 。 

在 理论 上 讨论 一 个 属性 在 多 个 不 同 数值 上 的 取 值 可 能 性 或 许 是 有 趣 的 , 但 在 实际 上 却 毫 无 用 
处 。 因 而 ， 断 言 通常 分 为 两 类 ， 将 一 个 属性 的 每 个 实例 约束 为 单个 值 的 断言 称 为 属性 求 值 函数 ， 
没有 这 人 么 严格 的 断言 则 称 为 谓词 。 属 性 求 值 函 数 〈 类 似 于 图 5-1 例子 中 的 断言 6 = int) 像 赋 值 语 
句 一样， 它们 都 将 属性 约束 为 单个 值 ， 而 谓词 (类 似 于 上 述 例 子 中 的 断言 = t， 假 设 分 析 树 自 
底 向 上 阅读 ) 并 没有 强行 指派 茶 一 个 特定 的 值 ， 而 只 是 要 求 两 个 值 必须 相等 。 求 值 函数 约束 了 一 
个 或 多 个 属性 之 后 ,可 利用 一 个 谓词 给 这 些 属性 强加 男 外 的 约束 ; 谓词 可 能 约束 一 个 属性 必须 是 
某 个 值 〈 如 上 例 所 示 )， 也 可 能 将 该 属性 与 一 个 表达 式 ( 表 达 式 中 可 能 涉及 其 他 属性 ) 相 关联， 
例如 al > wz + 3。 属 性 谓词 在 本 质 上 与 谓词 演算 中 的 谓词 相同 ， 例 如 谓词 P(x) = "x loves Sally" 为 
在 某 处 定义 的 某 一 对 象 x 断言 : 它 与 一 个 名 为 Sally 的 指定 对 象 之 间 存 在 着 某 种 关系 (恋爱 关系 )。 

在 属性 文法 的 定义 中 通常 形式 化 描述 了 这 两 类 断言 ， 我们 认为 这 种 划分 是 没有 必要 的 ， 除 
非 是 考虑 到 实现 方面 的 细节 。 如 果 上 述 例子 中 的 分 析 树 是 从 右 到 左 阅读 〈 而 不 是 自 底 向 上 阅 
i), UMA n= 乌 是 一 个 求 值 函数 ， 而 断言 =int 是 一 个 谓词 。 然 而 ， 在 一 些 特定 的 语 境 中 
为 了 澄清 语义 问题 ， 我 们 还 是 在 术语 上 区 分 求 值 函数 和 谓词 。 

我 们 将 属性 文法 写成 一 个 上 下 文 无 关 文 法 ,再 为 其 中 的 每 个 非 终结 符 附 加 0 个 或 多 个 属性 。 
经 典 属性 文法 的 表示 法 采用 一 种 “记录 一 域 ”格式 ， 其 中 对 属性 的 每 一 个 引用 均 指 定 了 非 终 结 
符 和 属性 名 ， 形 如 “N.a”( 其 中 N 是 一 个 非 终结 符 ，a 是 一 个 属性 )。 留 意 到 属性 断言 最 方便 
的 写法 是 放 在 它 所 作用 的 产生 式 的 本 地 位 置 ， 并 且 大 多 数 程序 员 已 熟悉 了 这 种 特别 的 名 字 与 定 
位 表示 法 的 组 合 表示 ， 因 而 这 样 可 写 出 更 紧 痰 、 更 可 读 的 文法 。 

属性 文法 的 功能 之 一 是 形式 化 地 说 明 整 个 文法 的 上 下 文 信息 流 ,而 不 是 为 此 建立 一 个 上 下 
文敏 感 文 法 。 这 一 点 很 重要 ， 因 为 已 有 高 效 的 算法 可 根据 一 个 上 下 文 无 关 文法 机 械 地 构造 一 个 
下 推 自 动机 ， 但 是 对 于 线性 有 界 自 动机 却 缺 乏 这 类 工具 。 不 过 从 理论 上 可 证 明 ， 虽 然 在 形式 上 
属性 文法 并 不 是 一 个 上 下 文敏 感 文法 ， 它 却 定义 了 一 个 上 下 文敏 感 语言 (尽管 可 能 会 有 一 些 限 
制 )。 然 而 属性 求 值 函数 和 谓词 却 可 直接 转换 为 分 析 程 序 自动 机 的 实现 ， 同 时 不 会 破坏 原 有 的 
5.2.1 继承 属性 和 综合 属性 

属性 以 两 种 方式 出 现 : 继承 属性 由 在 右 部 引用 了 该 属性 所 附属 的 非 终结 符 的 那些 产生 式 中 
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的 断言 定义 ， 综 合 属性 〈 又 称 派 生 属性 ) 则 定义 在 该 属性 所 附属 的 非 终结 符 的 产生 式 之 中 ,或 
者 就 是 该 属性 所 附属 的 终结 符 本 身 固 有 的 值 。 如 图 5-2 所 示 ， 在 分 析 树 中 继承 属性 继承 了 其 父 
结 点 的 值 ， 在 文法 中 它们 用 一 个 向 下 第 头 表示 (Jattname)。 综合 属性 可 进一步 分 为 两 类 ; 一 类 
仅 局 部 地 用 在 定义 该 属性 的 产生 式 中 ， 一 类 则 沿 分 析 树 向 上 传递 给 父 结 点 ; 后 者 在 文法 中 用 一 
个 向 上 箭头 表示 《Tatiname )。 在 图 5-1 的 例子 中 ， 如 果 分 析 树 自 底 向 上 求 值 ， 则 和 6 35729 £x 
合 属性 。 


Parent > Child Child ; Parent 


AAA NS 


Child Child 
图 5-2 分析 树 中 的 继承 属性 和 综合 属性 ， 其 中 展示 了 属性 的 信息 流 


属性 文法 在 1968 年 Donald Knuth CHWA) 发 表 的 一 篇 论文 中 己 完全 定型 ， 但 我 们 现在 
才 开 始 在 编译 程序 设计 中 有 效 地 运用 这 一 技术 。 尽 管 如 此 ， 高 德 纳 关 于 属性 求 值 的 例子 仍 是 这 
一 概念 的 最 佳 教学 素材 。 考 虑 如 下 一 个 定义 了 定点 二 进 制 数 的 上 下 文 无 关 文 法 : 
NoS""S 
S 一 SB 
—B 
也 一 "0" 
= "1" 
显然 ， 我 们 也 可 写 出 一 个 简单 的 正则 表达 式 定 义 同 样 的 语言 ， 但 此 处 目的 只 是 展示 如 何 为 
一 个 非 终结 符 附加 继承 属性 或 综合 属性 。 
目标 符号 N 表示 整个 二 进 制 数 ， 我 们 为 它 附加 一 个 综合 属性 v"， 表 示 该 二 进 制 数 的 数值 ; 
N fv 
符号 "表示 非 终结 符 N 生成 的 任意 二 进 制 数 的 值 。 在 该 语言 的 任 一 棵 特定 的 分 析 树 中 ， 从 
目标 符号 推导 出 的 终结 符 串 都 将 有 一 个 特定 的 值 v， 根 结 点 N 就 是 以 这 个 值 作为 属性 。 非 终结 
符 B 表示 一 个 二 进 制 数 字 ， 它 有 它 自己 的 值 v〈 不 要 与 附加 到 N 的 同名 属性 相 混淆 )。 然 而 ， 
一 个 数字 的 值 对 二 进 制 数 N 整个 值 的 贡献 还 取决 于 该 数字 在 二 进 制 数 中 的 位 置 , 该 数字 的 值 将 
根据 它 与 二 进 制 小 数 点 的 距离 换算 为 2 的 医 ， 这 个 换算 系数 / 无 法 由 该 数字 本 身 可 用 的 信息 综 
合 出 来 ， 只 能 从 它 的 父 结 点 《〈 非 终结 符 S) 继承 下 来 : 
B JrTv 
我 们 可 定义 一 个 断言 ， 将 值 "和 换算 系数 了 相关 联 。 明 确 地 说 ， 当 数字 为 1 时 其 值 必须 等 
于 换算 系数 ， 当 数字 为 0 时 换算 系数 是 无 所 谓 的 ， 该 数字 的 值 可 断言 为 0。 
非 终结 符 $ 表示 一 串 二 进 制 数字 ， 它 也 有 一 个 依赖 于 串 中 位 置 的 值 v， 是 一 个 关于 继承 得 
到 的 换算 系数 的 函数 。 但 是 这 一 换算 系数 从 何 而 来 ? 它 必须 以 串 长 以 及 相对 于 二 进 制 小 数 点 
的 位 置 为 基础 。 ÆN 和 S 的 产生 式 中 即 可 确定 位 置 ， 然 而 串 长 ! 只 能 在 S 的 产生 式 中 逐 位 构造 
该 串 时 综合 得 到 。 因 而 ， 我 们 不 仅 为 S 附加 一 个 从 根 结 点 〈 可 能 是 间接 地 ) 继承 的 换算 系数 ， 
同时 也 附加 了 综合 属性 分 别 表示 串 长 及 其 值 :; 
Slftv TI 


106 ` SF 





现在 可 写 出 每 一 非 终结 符 的 产生 式 所 关联 的 属性 断言 。 这 些 断 言 仅 用 于 构造 二 进 制 数 的 值 
( 亦 即 将 它 约束 为 单个 值 )， 因 而 我 们 将 这 些 断 言 称 为 属性 求 值 函数 也 是 同样 正确 的 : 
N Ty >S JA fv Th." SIA Tu T b [vz2vi*v5fi2l; 227^] 


Slftv U> S Lf, Ty, Th BLA Tv; [A=2fh=fivevtvil=h+1] 
>B JrTv [121] 

Blffv "o" [v20] 
= "1" [v=f] 


正如 正则 文法 中 语义 动作 的 写法 ,断言 用 方 插 号 插 住 。 为 文法 产生 式 右 部 的 非 终 结 符 所 附加 
的 属性 通常 采用 不 同 的 名 字 〔( 此 处 是 加 上 了 下 标 )， 从 而 在 断言 中 像 使 用 v 就 不 会 出 现 引 用 混乱 。 

观察 文法 的 第 一 条 产生 式 ， 会 发 现 一 个 二 进 制 数 的 值 v 是 值 v, (整数 部 分 ) 与 vo。( 小 数 部 
分 ) 之 和 ， 而 整数 和 小 数 部 分 通过 沿 分 析 树 向 下 传送 的 换算 系数 已 可 正确 地 换算 。 二 进 制 数 整 
数 部 分 的 二 进 制 数字 串 继承 的 换算 系数 是 1， 而 小 数 部 分 二 进 制 数字 串 继承 的 换算 系数 则 取决 
于 其 右 端 与 二 进 制 小 数 点 之 间 的 位 数 ， 亦 即 该 串 的 长 度 。 

对 于 由 一 个 子 串 后 接 一 个 二 进 制 数字 组 成 的 任意 串 S〈 第 一 条 产生 式 )， 二 进 制 数字 B 的 
换算 系数 户 与 整个 串 的 换算 系数 相同 ， 但 子 串 的 换算 系数 则 是 该 值 的 2 倍 ， 因 为 它 左 移 了 一 个 
二 进 制 位 。 整 个 串 的 长 度 比 子 串 长 度 大 1， 整 个 串 的 值 v 是 子 串 的 值 与 数字 的 值 之 和 。 当 一 
二 进 制 串 仅 由 单个 数字 B 组 成 时 ， 换 算 系 数 是 相同 的 ， 并 且 派 生 的 值 也 是 相同 的 : 在 文法 中 可 
省 略 这 些 断 言 ， 只 须 令 这 两 个 非 终结 符 的 属性 名 相同 。 

最 后 ， 如 前 所 述 ， 一 个 二 进 制 数字 的 值 是 该 数字 乘 以 它 的 换算 系数 ， 如 果 该 数字 为 0， 则 
这 个 值 也 为 0。 

图 5-3 展示 了 属性 值 在 该 文法 的 一 棵 分 析 树 上 是 如 何 流动 的 。 注 意 ， 尽 管 图 中 画作 三 遍 求 
值 ， 依 次 在 不 同时 刻 计算 不 同属 性 的 值 ， 但 一 棵 完整 的 带 属性 的 分 析 树 却 是 将 所 有 属性 附加 到 
单 棵 树 的 、 属 性 各 自 所 属 的 结 点 上 ， 使 得 所 有 的 断言 可 同时 成 立 。 该 例子 的 属性 求 值 无 法 在 一 
遍 求 值 中 完成 ， 这 可 看 作 是 实现 阶段 的 产物 。 实 际 上 ， 这 一 属性 文法 几乎 只 是 勉强 能 够 求 值 ， 
求 值 次 序 至 少 需要 三 次 遍历 分 析 树 ， 一遍 自 底 向 上 求 串 的 长 度 ， 一 遍 自 顶 向 下 求 换算 系数 ， 最 
后 另 一 遍 自 底 向 上 求 整 个 值 。 
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图 5-3 m 11.01 的 分 析 树 上 的 属性 流 。 长 度 的 属性 向 上 流动 (图 a); 然后 换 
算 系数 的 属性 向 下 流动 (图 b)， 最 后 整个 值 的 属性 向 上 流动 (图 c) 
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可 以 想像 ， 属 性 求 值 函 数 也 会 以 一 种 相互 依赖 的 方式 定义 。 例 如 ， 以 下 一 个 小 文法 中 的 u 


Tv. x Ally: 
A — B lx Ty [x=y] 
Biufv >a [vzu] 


这 种 依赖 关系 称 为 循环 依赖 ， 因 为 继承 属性 x 依赖 于 综合 属性 y, 而 y 与 v 相同 , v 反 过 来 
依赖 于 wn， 而 u 却 与 x 相同。 已 有 许多 研究 探讨 了 如 何 避 免 属性 的 循环 依赖 ， 以 及 寻找 属性 求 
值 次 序 的 高 效 策略 。 

-在 刚 开始 讨论 二 进 制 数 求 值 时 我 们 就 强调 ， 这 是 一 个 挖空心思 设计 的 例子 ， 主 要 是 为 了 展 
示 综 合 属性 与 继承 属性 的 区 别 。 它 也 提醒 了 我 们 属性 求 值 次 序 这 一 潜在 的 问题 。 在 实践 中 ， 我 
们 不 会 试图 编写 一 个 需要 如 此 复杂 的 属性 求 值 策略 的 编译 程序 。 例 如 ， 在 二 进 制 数 的 例子 中 如 
采 选 用 一 个 不 同 的 属性 集 ， 一 遍 自 底 向 上 就 足以 完全 求 出 属性 的 值 。 假 设 从 非 终 结 符 S 和 了 中 
省 去 属性 f 和 vw， 而 用 单个 综合 属性 i 取而代之， 表示 二 进 制 数字 或 数字 串 的 整数 值 (看 作 一 个 
整数 )， 文 法 即 可 简化 为 ; 


NTv >S M "" STHTL [v=i+27.i] 

STi >S Thh Bri [i=2i+i; l=4+1] 
>B fi [121] 

B Îi - "0" [i20] 


"I" [i21] 

此 外 ， 由 于 现在 仅 需 一 遍 自 底 向 上 的 遍历 ， 属 性 求 值 可 与 语法 分 析 同 时 进行 。 虽 然 情 况 并 
非 总 能 如 此 美妙 ， 但 我 们 越 是 仔细 地 选用 属性 求 值 函数 ， 就 会 使 得 编译 程序 的 工作 效率 越 高 。 
5.2.2 属性 值 流 

在 一 个 典型 的 带 优化 功能 的 编译 程序 中 ， 通 常会 遇 到 四 类 属性 求 值 需求 或 信息 流 : 

1. ARE 

2， 自 顶 向 下 

3. 从 左 到 右 

4. 从 右 到 左 

根据 正在 处 理 的 子 树 的 某 一 固有 性 质 导 出 其 值 的 那些 属性 (比如 二 进 制 数 文法 中 的 长 度 属 
性 1)， 通 常 采用 自 底 向 上 的 求 值 次 序 。 而 依赖 于 子 树 所 处 的 部 分 上 下 文 或 环境 的 属性 ， 则 通常 
需要 某 种 形式 的 自 顶 向 下 求 值 。 很 少 属性 会 在 整个 文法 中 严格 地 按照 自 顶 向 下 次 序 求 值 ， 它 们 
往往 受 限 于 编译 过 程 开 始 之 前 就 已 有 的 编译 程序 开关 或 其 他 全 局 信息 。 大 多 数 继承 属性 依赖 于 
在 文法 其 他 地 方 求 值 的 综合 属性 ， 这 一 类 别 通 常 划 分 为 从 左 到 右 信息 流 和 从 有 到 左 信息 流 。 从 
左 到 右 的 信息 流 在 分 析 树 中 某 一 特定 结 点 的 左 子 树 导 出 ， 再 由 该 结 点 的 有 了 树 继承 ; 通常 属性 
值 由 非 终 结 符 继承 ， 在 其 产生 式 中 《或 在 分 析 树 中 该 产生 式 的 下 方 ) 还 可 能 被 修改 ， 修 改 后 的 
值 导出 一 个 新 的 属性 。 | 

图 5-4 展示 了 二 进 制 整数 的 一 个 二 义 的 上 下 文 无 关 文 法 ， 并 附加 了 一 个 从 左 到 右 的 属性 求 
值 流 。 每 一 个 二 进 制 数 字 的 子 串 将 它 自身 的 值 添加 到 继承 属性 值 的 右边 ， 空 子 串 仅仅 传递 这 个 
值 而 不 改变 它 。 串 “10011” 的 分 析 树 展示 了 属性 值 的 流动 。 
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B — A lvo Ty [vo = 0] 
Vy | ^ Alv Tu 3A lvo Tu A lvi Toz 
v=0 v=19 
— "0" [v2 = 2 vo] 
_—— —"]l" [v2 2 2 vo + 1] 


0 : 2 h -7E [v2 = vo] 
v=0 v l z2 v=2 v=4 


图 5-4 ẹ 10011 从 左 到 右 的 属性 流 


本 章 将 深入 讨论 Pascal 和 Modula-2 这 类 语言 ， 这 类 语言 要 求 标识 符 在 使 用 前 须 先 声明 。 
标识 符 的 先 声 明 是 从 左 到 右 的 信息 流 的 一 个 实例 ， 因 为 变量 声明 位 于 变量 被 引用 的 左边 。 第 8 
章 介 绍 的 优化 课题 涉及 一 个 变量 下 次 将 被 如 何 使 用 ， 这 显然 是 一 个 从 右 到 左 的 信息 流 。 

自 顶 向 下 和 自 底 向 上 均 可 在 语法 分 析 时 对 纯 综 合 的 ( 自 底 向 上 的 ) 属性 进行 求 值 。 由 于 源 
程序 是 从 左 到 右 进 行 分 析 的 ， 大 多 数 从 左 到 右 的 属性 求 值 在 自 项 向 下 和 自 底 向 上 的 分 析 程 序 中 
都 是 可 行 的 ， 不 过 在 自 底 向 上 的 分 析 程 序 中 须 仔 细 处 理 以 保证 信息 流 的 一 致 。 一 般 而 言 ， 如 果 
某 一 属性 需要 用 到 在 逻辑 上 位 于 分 析 程 序 向 前 看 符号 右边 的 信息 ， 则 该 属性 将 无 法 在 语法 分 析 
的 同时 求 值 。 第 8 章 讨 论 了 基于 分 析 程 序 在 内 存 中 所 构造 的 抽象 语法 树 的 属性 求 值 ， 其 灵活 性 
远 远 高 于 与 语法 分 析 同 时 进行 的 属性 求 值 ， 但 是 也 更 浪费 内 存 和 CPU 时 间 。 

大 多 数 程序 设计 语言 可 沿 严格 的 从 左 到 右 、 自 底 向 上 属性 流 以 一 遍 方式 被 编译 (虽然 生成 
的 代码 效率 不 高 )。 练 习 1(d) 和 1(e) 演 示 了 属性 文法 的 信息 流 设计 好 坏 所 带 来 的 影响 。 


5.3” 非 终结 符 作为 属性 求 值 函 数 


一 旦 指派 了 哪些 属性 是 继承 的 、 哪 些 属性 是 综合 的 ， 就 确立 了 属性 信息 流 的 方向 ， 从 而 可 
将 属性 求 值 函数 收集 或 分 离 到 文法 的 空 产 生 式 中 ; 这 些 空 产 生 式 的 惟一 目的 就 是 封装 语义 。 再 
次 考虑 以 下 这 个 小 属性 文法 : 


E >T Tio "+" n [5-85] 

T f: — num [t= int] 
RERI t = ] 可 封装 在 以 一 个 新 非 终结 符 X 开头 的 另 一 产生 式 中 : 

E ST Tye" TTX ly bn 

Ly ke >e [5215] 

Tf: — num [t= int] 


这 种 写法 的 效果 是 显 式 地 指明 了 它 是 一 个 约束 两 个 属性 相等 的 谓词 ， 而 不 是 一 个 属性 求 值 
函数 。 若 要 强制 规定 它 是 一 个 属性 求 值 函 数 ， 则 可 直接 指派 一 个 不 同 的 信息 流 : 
E —TTs Ser TeX le Te 
Ke, TH >eE [525] 
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Tf: > num [t= int] 

wat, 8S—^RAEZRZATET LE n NON int (通过 构造 方式 )， 并 且 该 值 向 下 传递 给 义 ， 而 X 
断言 必须 是 相同 的 值 。 这 个 值 依次 沿 分 析 树 向 上 传递 给 E, E 则 隐 式 地 断言 它 必须 与 t CIE 
终结 符 T 的 第 二 个 实例 已 断言 它 为 int〉 相 同 。 

尽管 这 个 例子 很 简单 ,但 还 是 容易 看 出 ,对 非 终 结 符 X 及 其 继承 属性 和 综合 属性 的 引用 可 
有 效 地 取代 断言 = #。 我 们 以 两 种 方式 利用 这 种 等 价 性 。 首 先 ， 它 提供 了 一 种 简单 的 方法 将 
语言 的 约束 封装 为 文法 中 独立 的 专 有 部 分 ， 从 而 使 文法 具有 更 好 的 可 读 性 。 可 根据 逻辑 相关 性 
将 属性 断言 集中 在 一 起 并 加 以 命名 ， 而 不 是 随机 地 分 散在 语法 文法 中 。 它 还 有 一 个 副作用 ， 就 
是 有 助 于 为 特定 的 属性 在 谓词 或 属性 求 值 函数 两 者 之 间 选 择 实现 方式 ， 因 为 信息 流 在 文法 的 表 
示 中 是 显 式 表达 的 。 这 种 等 价 性 的 第 二 个 好 处 更 重要 ， 因 为 它 为 任意 复杂 的 属性 求 值 函数 和 谓 
词 提供 了 一 种 一 致 的 表示 法 。 

我 们 已 在 属性 断言 中 使 用 了 常见 的 算术 运算 符 和 比较 运算 符 ， 这 些 运 算 符 具有 普通 的 数学 
含义 。 然 而 ， 传 统 的 运算 符 并 不 能 满足 编译 程序 的 所 有 功能 需求 ， 有 一 类 属性 断言 无 法 采用 普 
通 运算 符 表达 ， 它 们 涉及 符号 表 的 概念 。 


5.4 符号 表 作 为 属性 


属性 文法 的 一 个 主要 功能 是 保证 一 个 由 语法 上 正确 的 串 所 组 成 的 语言 满足 某 些 语义 约束 。 
强 类 型 语言 的 一 个 约束 是 任何 变量 或 子 表达 式 的 声明 类 型 或 导出 类 型 必须 与 它们 的 用 法 保持 
一 致 。 另 一 个 常见 的 约束 是 任何 标识 符 都 必须 “ 先 声 明 、 后 使 用 ”。 在 第 4 章 编译 程序 实验 项 
目 所 开发 的 语法 文法 中 ， 无 法 强制 被 编译 的 程序 中 标识 符 必 须 预 先 声 明 ， 当 时 直接 跳 过 了 这 一 
问题 。 强 类 型 约束 可 加 入 到 你 的 第 一 个 文法 中 , 方法 是 在 语言 的 语法 中 拒绝 任何 破坏 了 类 型 约 
束 的 表达 式 ， 其 结果 是 一 种 太 简单 的 语言 ， 而 不 是 真正 的 Pascal 或 Modula-2 语言 。 现 在 考虑 
应 为 文法 引入 哪些 属性 ， 才 能 为 该 语言 的 一 个 更 大 的 子 集 适 当地 添加 上 述 两 个 约束 。 

经 典 的 符号 表 是 一 个 将 标识 符 集 与 值 集 相 关联 的 数据 结构 。 扫 描 程 序 已 将 每 一 标识 符 编码 
为 一 个 惟一 的 整数 ， 在 约束 程序 中 将 这 个 值 看 作 是 终结 符 ID 的 一 个 综合 属性 。 另 一 方面 ， 符 
号 表 中 与 标识 符 相 关联 的 值 通常 是 复杂 的 信息 记录 。 一 个 标识 符 须 关联 的 数据 包括 : 它 的 类 别 
是 什么 〈 例 如 类 型 名 、 变 量 名 、 过 程 、 或 常量 等 )， 它 在 目标 机 器 的 内 存 中 驻 留 何 处 〈 对 于 变 
量 和 过 程 )， 它 的 类 型 是 什么 ， 等 等 。 符 号 表 中 的 每 一 符号 必须 在 某 种 意义 上 是 惟一 的 ， 因 而 
符号 表 可 看 作 是 从 整数 到 值 记录 的 一 个 动态 函数 。 

符号 表 有 两 种 基本 访问 模式 : 一 种 是 添加 一 个 新 的 标识 符 及 其 值 ， 并 校 验 该 标识 符 在 表 中 
ASH: 另 一 种 是 查找 一 个 特定 的 标识 符 ， 并 取出 检索 到 的 值 。 我 们 将 这 两 种 访问 函数 定义 
为 形 如 非 终结 符 的 属性 求 值 函数 ， 其 中 符号 表 、 标 识 符 、 值 记录 都 是 属性 ， 非 终结 符 引 用 中 的 
继承 属性 和 综合 属性 也 采用 相同 的 表示 法 ,但 括 在 方 括号 中 以 表明 这 是 一 个 预定 义 的 属性 求 值 
函数 ， 而 不 是 一 个 非 终 结 符 。 符 号 表 访 问 函 数 写成 如 下 形式 : 

[into loldsymtab lident lvalue Tnewsymtab] 

{ 将 ident:value 加 到 oldsymtab 并 返回 含有 ident 的 newsymtab ) 


{from lsymtab lident Tvalue] 
{ 在 symtab 中 查找 ident 并 返回 它 的 值 } 
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属性 求 值 函数 into (通过 构造 方式 ) 断言 newsymtab 是 一 个 与 oldsymtab 相似 的 符 
号 表 ， 惟 一 区 别 是 它 还 包含 了 将 ident 与 value 相关 联 的 入 口 ; 此 外 ， 该 求 值 函数 还 断言 : 
在 oldsymtab 中 不 存在 与 ident 冲突 的 符号 。 类 似 地 ， 求 值 函数 from Wr: ident 已 在 
符号 表 symtab 中 ， 且 它 与 值 value 相关 联 。 

注意 ， 我 们 一 直 避 免 将 属性 看 作 可 随时 修改 的 变量 ， 而 是 看 作 值 ， 这 些 值 会 根据 求 值 函数 
《实际 上 就 是 断言 ) 关联 到 新 的 值 。 因 而 ， 尽 管 我 们 很 容易 将 符号 表 看 作 某 种 传统 程序 设计 语 
言 中 部 分 填充 的 记录 数组 ,并且 事实 上 在 编译 程序 的 数据 空间 中 这 一 数据 结构 也 可 能 是 一 种 好 
的 实现 ， 但 是 如 果 让 这 种 表示 蒙蔽 我 们 的 理解 ， 将 令 属 性 文法 带 来 的 形式 化 与 概念 化 优势 烟 消 
云 散 ， 我 们 也 退化 到 像 用 C 这 类 低级 程序 设计 语言 处 理 编译 程序 。 在 实践 中 ， 我 们 不 会 真 的 在 
每 次 使 用 into 时 都 复制 整 张 符号 表 ， 而 只 是 将 新 符号 添加 到 顶部 ， 并 返回 一 个 指向 符号 表 新 
顶部 的 指针 ， 如 果 符 号 表 的 实现 采用 一 个 记录 的 链表 ， 这 根本 不 会 导致 性 能 低下 。 

标识 符 是 分 析 程序 所 处 理 语言 中 的 终结 符 ， 扫 描 程序 识别 其 形式 ， 并 为 任 一 标识 符 均 报告 同 
一 个 单词 TD， 但 标识 符 声明 与 类 型 检查 却 要 求 识别 出 一 个 个 不 同 的 标识 符 。 第 3 章 展示 了 如 何 
向 扫描 程序 文法 添加 语义 动作 ， 以 及 如 何 据 此 将 语义 动作 添加 到 一 个 实现 扫描 程序 的 FSA 中 。 
其 中 的 一 个 语义 动作 为 字符 串 表 中 每 一 个 惟一 的 标识 符 产生 一 个 惟一 的 整 型 标识 符 编号 。 扫描 程 
序 返回 的 标识 符 编号 将 作为 一 个 综合 属性 。 注意 ， 由 扫描 程序 负责 维护 的 字符 串 表 与 这 里 的 符号 
表 没 有 关系 ,不 应 将 两 者 混淆 。 字 符 串 表 包 含 标识 符 的 拼写 ， 而 符号 表 则 关注 抽象 属性 和 符号 性 
质 。 以 往 的 符号 表 通 常 也 包含 了 标识 符 的 拼写 〈 作 为 符号 的 另 一 性 质 )， 但 这 在 现代 程序 设计 语 
寺中 是 不 实用 的 ， 因 为 标识 符 长 度 不 再 像 早期 编译 程序 那样 限制 在 6 个 或 8 个 字符 。 


5.5 Micro-Modula 的 属性 文法 


本 小 节 为 第 2 章 2.2.3 小 节 的 文法 G, 扩 展 了 变量 声明 和 赋值 语句 ， 并 添加 了 一 些 布尔 运算 
使 得 类 型 检查 更 有 意思 ， 从 而 得 到 如 代码 清单 5.1 所 示 的 Micro-Modula 文法 。 


代码 清单 5.1 Micro-Modula 语言 的 语法 文法 





M 
-> "MODULE" ID ";" 
"VAR" 
V 
BEGIN 
B 
END" ID 
V { 0 个 或 多 个 变量 声明 ) 
-> ID ":;" T ";" 
V 
一 > ; 
T { 两 个 预定 义 类 型 } 


-> "INTEGER" 
< -> "BOOLEAN" 


B C 仅 在 模块 体 中 有 赋值 语句 } 
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-> 


E { 简单 表达 式 ， 或 是 ... ]} 
-> SC ; 

C { ... 比较 相等 } 
-> "=" § 

S { 注意 ， 该 文法 是 LL(1) 的 } 
-> F P ; 

P 


-> 

F 
-> c(* E "t 
-> ID 
-> NUM { 整 型 常量 } 
-> "TRUE" { 布尔 型 常量 } 
-> "FALSE" { 布尔 型 常量 } 


现 为 该 文法 附加 类 型 检查 所 需 的 属性 。 首 先 ， 注 意 到 单词 TD 有 一 个 综合 属性 idn, idn 
惟一 地 确定 了 标识 符 的 拼写 。 目标 符号 的 产生 式 中 有 两 个 标识 符 ， Modula-2 语言 要 求 它们 必须 
是 相同 的 标识 符 ， 即 它们 具有 相同 的 tan。 很 容易 写 出 一 个 属性 断言 强制 规定 这 一 点 ， 要 么 在 
产生 式 中 将 它们 命名 为 同一 名 字 ( 正 如 代码 清单 5.2 中 的 做 法 ), 要 么 显 式 地 写 出 一 个 等 式 谓词 。 
在 文法 的 其 他 地 方 ， 均 利用 标识 符 的 属性 以 区 别 符 号 表 中 的 标识 符 。 注 意 在 代码 清单 5.2 中 ， 
HERA “T” RAA ASCI 的 音调 符 “^” 向 下 第 头 “J” 录 入 为 感叹 号 “1”。 


代码 清单 5.2 Micro-Modula 语言 的 属性 文法 ， 支 持 类 型 检查 


M !vacantTbl 
一 > "MODULE" ID ^idn ";" 
"VAR" 
V ivacantTbl ^tblOut 
"BEGIN" 
B !tblOut 
"END" ID ^idn "." 


V I!tblIn ^tblOut 
-> ID ^idn ":" T “type ";" [into !tblIn !idn !type ^nutbl] 
V !nutbi ^tblOut 
一 > [tblOut = tblin] 


T ^type 
-> "INTEGER" [type = 1] 
-> "BOOLEAN" [type = 2] 
B !tblIn 
-> ID ^idn ":=" E !tblIn ^type ";" [from !tblIn !idn ^type] 


B !tblIn 
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-> 


E !tblIn “type 
-> S !tblīn ^stype C !tblIn !stype “type ; 


C !tblin !typeIn ^typeOut 
一 > "=" § ItblIn ^ctype [typeIn = ctype; typeOut = 2] 
一 > [typeOut = typeIn] 


S !tblIn “type 
一 > F ItblIn “type P !tblIn !type ; 


P !tbliIn !type 
-> "*" FP ItblIn “type P !tblIn !type [type = 1] 
一 > "AND" F !tblIn ^type P !tblIn !type [type = 2] 


F !tbliIn ^type 
-> "(" E !tblIn “type ")" 
一 > ID ^idn [from !tblIn !idn ^type] 
-> NUM ^value [type = 1] 
-> "TRUE" [type = 2] 
-> "FALSE" [type = 2] 

我 们 还 需要 一 个 继承 的 〈 从 左 到 右 的 ) 符号 表 属 性 在 整个 文法 中 携带 信息 。 假 设 目 标 符号 
继承 了 一 个 空 的 符号 表 属 性 vacantTbl1， 且 每 一 非 终结 符 继 承 一 个 tblIn; 变量 声明 的 非 终 
结 符 也 由 tblIn 导出 一 个 (通常 是 修改 过 的 ) tblout， 并 作为 其 右边 的 下 一 非 终结 符 所 继承 
的 tblIn。 类 似 地 ， 类 型 检查 还 强制 规定 了 表达 式 内 部 采用 从 左 到 右 的 属性 求 值 次 序 。 

考虑 代码 清单 5.2 中 的 属性 文法 。 表 达 式 E 由 简单 表达 式 s 后 接 比 较 运 算 c Am, c 可 能 
是 以 “=” 分 隔 的 另 一 简单 表达 式 ， 也 可 能 为 空 。 当 c AFN, KAR m 的 类 型 与 作为 其 组 成 
部 分 的 简单 表达 式 s 的 类 型 相同 , 但 这 在 对 B 的 产生 式 只 进行 一 遍 分 析 时 是 无 法 得 知 的 ; 因而 
将 这 一 类 型 值 向 下 传递 给 Cc， 然后 在 产生 式 C 一 ge 原封 不 动 地 返回 它 。 另 一 方面 ， 如 果 C 是 
一 个 比较 运算 的 余下 部 分 ， 那么 两 个 子 表达 式 的 类 型 必须 相同 ， 不 是 整 型 就 是 布尔 型 (文法 中 
的 等 式 谓词 表达 了 这 一 点 )， 并 且 比 较 运 算 的 结果 类 型 是 布尔 型 。 

简单 表达 式 s 的 类 型 与 作为 其 组 成 部 分 的 因子 F 的 类 型 相同 , 于 是 综合 属性 原封 不 动 地 向 
上 传递 ， 同时 ， 它 还 必须 与 因子 右边 的 乘积 组 成 部 分 P 是 同一 类 型 。 在 乘积 的 产生 式 中 ， 如 
果 乘 积 为 空 则 不 必 理 会 其 类 型 ， 但 如 果 乘 积 部 分 有 乘法 运算 ， 则 因子 必须 推出 与 乘积 部 分 继承 
得 到 的 相同 类 型 ; 递归 的 乘积 部 分 继承 同一 类 型 ， 且 该 类 型 必须 是 整 型 〈 此 处 编码 为 数字 1)。 
如 果 运 算 符 是 AND， 则 所 有 涉及 的 类 型 必须 是 布尔 型 《编码 为 2)。 

常量 因子 的 类 型 被 综合 为 一 个 常量 ( 取 值 1 或 2, 取决 于 常量 是 一 个 数值 还 是 关键 字 TRUE 
或 FALSE 之 一 ); 而 变量 的 类 型 则 必须 从 符号 表 中 查找 。 

变量 在 产生 式 V 中 声明 ， 其 中 每 一 个 标识 符 要 么 与 关键 字 INTEGER 关联 (从 而 推出 类 型 
属性 为 1)， 要 么 与 关键 字 BOOLEAN 关联 (从 而 推出 类 型 属性 为 2)。 标 识 符 及 其 类 型 被 登记 到 
继承 下 来 的 符号 表 中 ， 新 符号 表 再 递归 地 传递 给 该 声明 右边 的 任何 声明 ， 从 而 一 直 向 上 传递 到 
程序 体 ， 在 这 里 被 赋值 语句 及 其 成 分 表达 式 所 继承 。 

处 理 赋值 语句 体 时 ， 先 在 符号 表 中 查找 赋值 运算 符 左边 的 标识 符 ， 再 断言 查 表 返 回 的 类 型 
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必须 与 右边 表达 式 推出 的 类 型 相等 。 文 法 通过 引用 相同 的 属性 名 ， 隐 式 地 表达 了 这 一 约束 。 
5.6 在 TAG 编译 程序 中 使 用 属性 


TAG 编译 程序 被 设计 为 根据 一 个 属性 文法 的 源 文件 生成 合适 的 约束 检查 代码 。 然 而 ,不 同 
于 之 前 书写 的 小 文法 , TAG 编译 程序 是 强 类 型 的 。 继 承 属性 和 综合 属性 必须 在 产生 式 头 部 用 一 
个 类 型 名 声明 ， 非 常 类 似 Modula-2 和 Pascal 语言 要 求 的 变量 声明 。 

此 时 涉及 的 两 个 预定 义 类 型 是 int 〈 整 型 数字 ) 和 symtab (符号 表 )。 内 置 属性 求 值 函 
数 也 必须 声明 其 属性 类 型 ，TAG 的 scanner 部 分 使 用 的 内 置 语义 求 值 函数 以 相同 的 方式 预 声 
明 。 与 强 类 型 程序 设计 语言 一 样 ， 预 声明 的 类 型 需求 使 得 编译 程序 能 执行 合理 的 一 致 性 检查 ， 
从 而 检测 和 报告 更 多 常见 的 编码 错误 。 

代码 清单 5.2 中 文法 的 头 部 信息 看 起 来 类 似 代码 清单 5.3。 其 中 有 一 种 特殊 的 语法 ， 它 采用 
“@” 符 号 在 迭代 的 正则 表达 式 中 对 属性 求 值 ， 第 10 章 详细 解释 了 这 种 语法 ， 目前 它 暂 时 只 用 
于 整 型 的 求 值 。 此 外 还 应 注意 ， 文 法 中 的 VacantTable 已 被 一 个 空 表 构 造 算 子 “<>” 取代 。 


代码 清单 5.3 ”为 TAG 编译 程序 编写 的 Micro-Modula 属性 文法 的 头 部 
tag MicroModula: 
predeclared 
into !symtab !int !int ^symtab 


from !symtab !int ^int 


charval ^int ; C 扫描 程序 函数 ， 返 回 一 个 字符 的 序数 } 


initbl ; { 扫描 程序 函数 ， 开 始 扫描 一 个 标识 符 } 
addtbl !int ; { 扫描 程序 函数 ， 将 一 个 字符 添加 到 字符 串 表 } 
strindex ^int ; { 扫描 程序 函数 ， 在 表 中 查找 标识 符 } 
Scanner 
ignore 
-> "norm ; { 删除 空格 和 行 结 束 符 } 
ID “name:int 
-> [initbl] 
("a" .. "z" | "A" ,, "Z")J [charval ^this; addtbl !this] 
(("a" ee "gw" | "AM 2. "gn | "QO" .. 190) 


[charval ^this; addtbl !this])* 
[strindex ^name] 


NUM ^value:int 


一 > [value = 0] 
(("0" .. "9") [charval “this; value@ = value * 10 + this - 48] ) + 
parser 
M 
一 > "MODULE" ID ^idn 
"VAR" 


V i<> ^tblOut 


* 
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0 


"BEGIN" 
B !tblout 
"END" ID ^ idn "wo 


V ItblIn:symtab ^tblOut:symtab 
一 > ID ^idn ":" T “type 


end MicroModula. 


5.7 ”作用 域 与 标识 符 类 别 


BOWL, 登记 到 符号 表 中 的 标识 符 只 有 局 部 变量 名 ; 而 在 真正 的 程序 设计 语言 中 ， 还 有 
过 程 名 和 函数 名 、 类型、 常量 等 , 每 一 类 标识 符 处 理 起 来 会 略 有 不 同 。 此 外 , 在 Pascal. Modula-2 
这 类 块 结构 语言 中 ， 如 果 相 同 的 标识 符 并 不 是 声明 在 同一 作用 域 层 次 ， 则 该 标识 符 在 符号 表 中 
不 必 是 惟一 的 。 为 同时 考虑 上 述 两 个 方面 的 改进 ， 我 们 只 需 为 Micro-Modula 语言 添加 一 类 新 
的 标识 符 ， 即 无 参数 的 函数 。 

5.7.1 标识 符 作用 域 的 文法 

为 给 文法 引入 新 的 特性 ， 我 们 添加 了 两 个 新 的 非 终 结 符 A 和 H， 并 修改 了 另外 三 条 产生 式 
(M、B 和 了 )， 如 代码 清单 5.4 所 示 。 新 的 非 终 结 符 定义 了 一 个 函数 过 程 的 语法 ， 具 有 一 个 名 
字 和 类 型 、 自 己 的 局 部 变量 、 可 能 幅 套 的 函数 声明 以 及 一 个 语句 体 。RETURN 语句 也 加 入 到 语 
句 的 定义 中 ， 这 在 一 个 块 的 结尾 处 是 必 不 可 少 的 。 最 后 ， 修改 了 因子 了 的 产生 式 ， 从 而 在 语法 
上 区 分 了 函数 调用 和 变量 引用 ， 这 里 采用 与 Modula-2 语言 一 致 的 语法 形式 。 这 一 点 很 重要 ， 
使 得 我 们 可 以 从 语法 上 确定 将 标识 符 编译 为 一 个 变量 引用 还 是 一 个 函数 调用 。 第 8 章 介绍 了 如 
何 处 理 同名 异 义 的 编译 问题 ， 也 就 是 在 语法 上 相同 但 其 语义 不 同 的 名 字 ， 例 如 Pascal 语言 中 一 
个 变量 的 引用 与 一 个 无 参数 函数 的 调用 。 


代码 清单 5.4 ”修改 Micro-Modula 语言 的 语法 以 添加 函数 


A 
METER { 一 个 函数 调用 ) 
-> € i { 一 个 变量 引用 ) 
H 
-> "PROCEDURE" ID ":" T 
"VAR" 
V 
H 
"BEGIN" 
B 
"END" ID 
H 
-> € 
M 


-> "MODULE" ID 
" VAR LU 
V 
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-> "FALSE" 


为 支持 新 的 特性 ， 符 号 表 也 变 得 更 加 复杂 。 符 号 表 中 必须 引入 词法 层次 这 一 概念 ， 作 为 标 
识 符 的 属性 之 一 ， 如 果 同 一 标识 符 的 每 次 出 现 具有 不 同 的 词法 层次 ， 则 该 标识 符 在 符号 表 中 可 
能 出 现 多 次 。 当 前 词法 层次 将 作为 符号 表 本 身 的 一 个 属性 来 维护 ， 因 而 不 必 由 属 性 求 值 运 算 符 
into 定义 ， 但 需要 另外 一 个 属性 求 值 函数 open 通过 提升 符号 表 当 前 的 词法 层次 创建 一 个 新 
的 作用 域 。 由 于 open 总 是 返回 一 个 新 的 符号 表 ， 只 要 简单 地 不 再 引用 更 高 层次 派生 出 的 符号 
表 ， 就 可 以 降低 词法 层次 (从 而 更 高 层次 符号 表 中 的 所 有 符号 被 自动 丢弃 )。 

此 时 还 有 必要 区 别 符号 表 中 的 两 类 标识 符 ， 即 变量 和 函数 。 它 们 有 相同 的 类 型 值 ， 但 变量 
名 不 可 用 于 函数 调用 ， 而 函数 名 不 可 出 现在 赋值 语句 的 左边 ， 也 不 可 无 空 参 数 表 括号 就 出 现在 
表达 式 中。 之 前 我 们 将 INTEGER 和 BOOLEAN 这 两 个 类 型 分 别 编码 为 简单 的 数值 1 和 2, 现在 
还 必须 包括 其 类 别 。 将 符号 表 中 的 每 一 个 值 改 为 一 个 同时 包含 类 型 字段 和 类 别 字段 的 记录 ， 即 
可 解决 这 一 问题 。TAG 编译 程序 具有 一 种 为 记录 进行 编码 的 机 制 , 但 其 中 的 复杂 性 会 令 读 者 分 
散 注 意 力 ; 因而 我 们 手工 将 两 个 字段 分 别 编码 为 十 进 制 整数 的 十 位 数 和 个 位 数 ,， 如 表 5-1 所 示 。 
一 个 登记 在 符号 表 中 的 标识 符 现在 通过 自己 的 值 携 带 了 两 段 信息 : 类 别 和 类 型 。 当 检索 到 一 个 
值 时 ， 必 须 从 中 抽取 信息 以 还 原 各 部 分 的 含义 ;采用 普通 的 整数 乘法 和 除法 执行 压缩 和 解压 功 
能 ， 即 可 达到 上 述 目的 。 


表 5-1 将 类 别 和 类 型 压缩 为 单个 整数 ， 例 如 ， 整 数 变 量 为 31、 布 尔 函 数 为 42 


Xind《〈 类 别 ) 3 变量 
4 函数 
Type (类 型 ) 1 整数 类 型 
2 布尔 类 型 
Fi 88: packedvalue = kind * 10 + type 
解压 : kind = packedvalue / 10 


type = packedvalue - kind * 10 


约束 检查 除了 验证 标识 符 的 用 法 以 及 新 语法 中 显而易见 的 语义 之 外 ,还 需要 两 个 新 的 属性 
求 值 以 实现 Micro-Modula 语言 的 函数 ， 其 中 一 个 涉及 符号 表 的 管理 。 在 每 一 函数 名 的 声明 之 
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后 、 该 函数 声明 的 入 口 处 ， 会 创建 一 个 新 的 作用 域 ， 从 而 在 作用 域 关闭 后 函数 名 仍然 可 用 。 创 
建新 作用 域 还 有 另 一 好 处 ， 就 是 在 新 作用 域 中 声明 的 符号 会 在 作用 域 关 闭 时 自动 丢弃 ， 而 这 正 

另 一 个 新 的 属性 断言 稍微 模糊 一 些 , 但 类 似 于 要 求 验证 RETURN 语句 中 表达 式 的 类 型 必须 
与 函数 的 类 型 相 匹配 ， 以 及 RETURN 语句 未 被 省 略 。 由 于 上 述 文法 要 求 RETURN 语句 是 最 后 一 
条 语句 ， 原 本 可 将 该 语句 加 到 函数 头 部 的 产生 式 中 ， 从 而 在 语法 上 作出 硬性 规定 ; 但 这 里 采 
用 的 方法 更 加 通用 ， 并 且 适 用 于 RETURN 语句 的 出 现 位 置 未 作 如 此 限制 的 更 大 型 语言 。 这 里 采 
用 的 方法 是 为 表示 函数 体 的 非 终结 符 B 添加 一 个 关于 类 型 的 继承 属性 , 该 属性 将 函数 的 类 型 信 
息 向 下 携带 给 函数 体 , 在 函数 体 中 可 与 RETURN 表达 式 的 类 型 进行 比较 ,着 无 RETURN 表达 式 
则 断言 其 值 为 0。 
5.7.2 ”标识 符 作用 域 例 子 分 析 

车 不 考虑 因 峰 套 的 函数 声明 而 引发 的 变量 作用 域 问 题 , 符号 表 属 性 求 值 函 数 显然 已 正确 地 
实现 了 Micro-Modula 语言 的 类 型 检查 。 代 码 清单 5.5 中 的 文法 还 不 够 明显 ; 考虑 图 5-5 所 示 的 
一 个 小 程序 并 追踪 其 属性 流 ， 其 中 特别 注意 符号 表 的 变化 。 带 编号 的 圆圈 指出 了 我 们 对 符号 表 


代码 清单 5.5” 带 函数 的 Micro-Modula 语言 的 属性 文法 





一 > "MODULE" ID ^idn ";" 
"VAR" 
V !«» ^vartable 
H !vartable ^bodyTable 
"BEGIN" 
B !bodyTable !0 
"END" ID “idn 


H !tblIn:symtab ^tblOut:symtab 


一 > "PROCEDURE" ID ^idn ":" T ^type ; 
[into !tblIn !idn !type+40 ^nextable] 
[open !nextable ^nutbl] 
"VAR" 
V inutbl ^vartable 
H !vartable ^bodyTable 
"BEGIN" 
B !'bodyTable !type 
"END" ID ^idn ";" 
H !nextable ^tblOut 


一 > [tblOut = tblIn] 
V t!tblIn:symtab ^tblOut:symtab 
一 > ID ^idn ":" T ^type 


[into !tblIn lidn !type+30 ^nutbl] 
V 1nutbl ^tblout 
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->  [tblOut = tblIn] ; 
T ^type:int 


一 > "INTEGER" [type 1] 


Il 


-> "BOOLEAN" [type 2] ; 


B !tblIn:symtab !typeR:int 
一 > ID ^idn ":-" E !tblIn “type ";" 
[from !tblIn !idn ^typeID] 
[typeID / 10 = 3; type = typeID - 30] 
B !tblIn !typeR 
-> "RETURN" E !tblIn ^typeR ";" 
-> [typeR = 0] ; 
E !tblIn:symtab ^type:int 
一 > S !tblIn ^stype C !tblIn !stype “type ; 
C ItblIn:symtab !typeIn:int ^typeOut:int 
=" SS ItblIn “ctype [typeIn = ctype; typeOut = 2] 
一 > [typeOut = typeIn] ; 
S !tblIn:symtab ^type:int 
一 > F !tblIn “type P !tblIn !type ; 
P !tblIn:symtab !type:int 
一 > "*" F I!tblIn “type P !tblIn !type [type = 1] 
一 > "AND" F !tblIn ^type P !tblIn !type [type = 2] 
-> ; 
A !typeID:int ^type:int 
-> "(" ")" [typeID / 10 = 4; type = typeID - 40] 
-> [typeID / 10 = 3; type = typeID - 30] ; 
F !tblIn:symtab ^type:int 
一 > "(^ E !tblIn “type ")" 


一 > ID ^idn [from !tblIn !idn ^typeID] 
A !typelD ^type 


-> NUM ^value [type = 1] 
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一 > "TRUE" [type = 2] 
-> "FALSE" [type = 2] ; 
MODULE NestedFunctions; |, NestedFunctions 
VAR 
à: INTEGER; o0 e 
b: BOOLEAN; wa | First iual 
c: INTEGER; @ | ~ 人 人、 
PROCEDURE First: INTEGER; Vb 6 eS E i bie3 
VAR we nlSecond |- r| Third 
a: BOOLEAN; @ | c TAN | /^W. -一 个 
[s 
PROCEDURE Second: INTEGER; va È d Se du | 
VAR | | | ! 
a: INTEGER; ! 
b: INTEGER; yb qn o: 一 人 
BEGIN = Third() 
b := ci ©: RETURN a*b - | | 
a := First() * Second(); © p : 
RETURN a * b 
END Second; | 
First() =3 
BEGIN 
a := First() = Second(); @ uim 
RETURN 5 ; 
END First; | | 


PROCEDURE Third: INTEGER; . | 
VAR : 
c: BOOLEAN; ! 
BEGIN 
c := (First() = a) = b; @ 
RETURN c 
END Third; 


BEGIN (* NestedFunctions *) 
= 1; 
C := 2; 
= (First() = 3) = Third() 
END NestedFunctions. 


图 5-5 一 个 Micro-Modula 程序 与 分 析 树 ， 其 中 展示 了 属性 流 


ER 5-2 所 示 的 快照 点 1 中， 符号 表 包 含 在 非 终结 符 M 的 产生 式 的 一 个 名 为 vartable 
的 属性 中 ; 该 符号 表 恰 好 包含 三 个 全 局 变量 a、b 和 c， 均 由 递归 的 非 终 结 符 Vv 推导 出 来 ， 并 
将 由 表示 函数 头 部 的 非 终 结 符 也 继承 。 非 终结 符 也 的 第 一 条 非 空 产 生 式 将 函数 名 填 入 符号 表 ( 推 
导出 nextable)， 然 后 为 此 创建 一 个 新 作用 域 ， 并 再 将 结果 向 下 传送 给 V。 非 终结 符 v 声明 
了 一 个 变量 a 并 与 符号 表 (也 称 为 vartable) 一 起 返回 ， 这 正 是 快照 2 的 基础 。 


表 5-2 Micro-Modula 程序 中 的 属性 流 ( 快 照 1 一 2) 





®© 
符号 词法 层次 fü 当前 词法 层次 ，0 
a 0 31 
b 0 ' 32 


c 0 31 
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GE) 
四 
符号 词法 层次 值 当前 词法 层次 : 1 
a 0 31 
b 0 32 
c 0 31 
First ü 41 
a 工 32 


BAS) 互 ， 它 递归 地 进入 HE， 将 第 二 个 函数 的 名 字 Second 及 其 类 型 填 入 符号 表 位 于 词 
法 层次 1， 因 为 它 骸 套 在 函数 First 中 )， 然 后 在 词法 层次 2 创建 另 一 新 的 作用 域 ， 并 声明 了 
局 部 变量 a 和 Db。 这 两 个 变量 均 已 出 现在 符号 表 中 《参阅 表 5-3 的 快照 3)， 但 位 于 更 低 的 词法 
层次 “分 别 为 1 和 0)， 因 而 添加 这 两 个 新 的 标识 符 不 会 产生 任何 问题 。 


Æ 5-3 Micro-Modula 程序 中 的 属性 流 〈 快 照 3 一 7) 





@ 
符号 词法 层次 值 当前 词法 层次 : 2 
a 0 31 
b 0 32 
c 0 31 
First 0 4i 
a 1 32 
Second 1 4i 
a 2 31 
b 2 31 
@ 
符号 - 词法 层次 值 当前 词法 层次 : d 
a 0 31 
b 0 32 
c 0 31 
First 0 41 
a 1 32 
Second 1 41 
© 
符号 词法 层次 值 当前 词法 层次 : 0 
a 0 31 
b 0 32 
C 0 31 
First 0 41 
& 
符号 词法 层次 值 当前 词法 层次 ; 1 





720 5 5 
( 续 ) 

b 0 32 

c 0 31 

First 0 “41 

Third 0 41 

c 1 32 

© 
符号 词法 层次 值 当前 词法 层次 ; 0 

a 0 31 

b 0 32 

c 0 31 

First 0 41 

Third 0 41 





快照 3 也 反映 了 符号 表 经 过 函数 Second 的 整个 函数 体 后 的 状态 。 因 而 ， 分 析 程 序 在 第 一 
条 赋值 语句 中 遇 到 对 变量 b 的 引用 时 ， 将 查找 符号 表 (首先 找 到 最 近 出 现 的 符号 )， 并 且 整 数 
类 型 的 局 部 变量 b 将 先 于 布尔 类 型 的 全 局 变量 b 被 找到 。 另 一 方面 , 在 这 条 赋值 语句 的 表达 式 
部 分 ， 因 子 FF 将 找到 全 局 变量 ce( 由 于 不 存在 该 名 字 的 局 部 或 中 间 标 识 符 )。 

当 非 终结 符 (分 析 函 数 Second) 完成 其 任务 后 ， 它 将 只 新 加 了 该 函数 名 的 符号 表 (H 
中 的 属性 nextable) 向 下 传递 给 其 右边 的 函数 声明 ;后 者 (由 于 为 空 ) 将 原封 不 动 地 作为 
tblout 返回 ， 从 而 原样 传 回 给 之 前 对 非 终结 符 R 的 调用 ( 仍 在 分 析 函 数 First)。 符 号 表 原 
封 不 动 地 沿 函 数 体 向 下 传递 ， 如 表 5-3 中 的 快照 4 PUR. 注意 ， 此 处 所 谓 “ 原 封 不 动 ”” 是 指 分 
析 树 中 每 一 快照 点 表示 的 符号 表 属 性 的 所 有 副本 具有 相同 的 值 。 

快照 5 再 次 展示 了 非 终结 符 H 分 析 完 First 函数 体 后 传 出 的 符号 表 属 性 内 容 ， 它 们 将 向 
下 传递 给 递归 调用 的 非 终结 符 n 以 分 析 函 数 Thira。 标 识 符 Second 及 其 所 有 局 部 变量 以 及 
First 的 所 有 局 部 变量 全 部 消失 一 一 实际 上 它们 从 未 在 这 一 份 符号 表 中 出 现 过 。 因 而 ， 这 是 与 
Modula-2 和 Pascal 语言 的 作用 域 可 见 性 规则 相 一致 的 ， 函 数 Second 在 函数 Thira 中 是 不 可 
见 的 (参阅 快照 6)， 它 在 主 程序 体 中 也 是 不 可 见 的 《如 快照 7 所 示 )。 
5.7.3 ”符号 表 的 其 他 问题 

上 述 例子 仅 展示 了 无 参数 的 过 程 ， 将 参数 引入 类 型 系统 后 ， 情 况 会 变 得 更 加 复杂 。 值 参 在 
局 部 处 理 ， 与 局 部 变量 相似 ， 惟 一 区 别 是 它们 在 过 程 调 用 中 被 赋予 了 - :个 初始 值 。 参数 的 个 数 
和 类 型 也 反映 了 一 个 过 程 的 功能 接口 ，Modula-2 语言 将 其 视 为 一 个 过 程 类 型 的 组 成 部 分 。 强 类 
型 检查 禁止 以 错误 的 参数 个 数 或 类 型 调用 一 个 过 程 。 由 于 我 们 采用 的 符号 表 编码 机 制 缺乏 足够 
的 空间 在 单个 过 程 类 型 的 记录 中 表达 任意 数目 的 参数 类 型 ， 故 将 此 问题 留 作 下 一 章 的 练习 。 

变 参 (又 称 引用 参数 ，Modula-2 语言 在 参数 表 中 用 关键 字 VAR 标识 ) 引入 了 一 些 新 的 问 
题 ， 许 多 现代 程序 设计 语言 (例如 C 语言) 甚至 不 支持 变 参 。 变 参 的 问题 之 一 是 必须 按 不 同方 
式 分 析 这 两 类 参数 的 过 程 调用 语法 ; 值 参 可 接受 类 型 正确 的 任 一 表达 式 ， 而 变 参 则 只 能 传递 一 
个 变量 的 引用 。 由 于 本 章 的 重点 是 语法 制导 的 语义 ， 变 参 问 题 将 推迟 到 第 8 章 讨论 。 

每 一 程序 设计 语言 均 包含 了 一 个 由 预定 义 函 数 与 过 程 组 成 的 标准 库 。 其 中 有 许多 函数 或 过 
程 往往 带 有 神奇 的 性 质 ， 需 要 由 编译 程序 进行 特殊 的 处 理 。 其 他 的 库 例 程 则 与 用 户 自己 编写 的 
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过 程 没 有 区 别 〈 从 编译 程序 的 角度 看 )， 只 需 将 它们 的 声明 添加 到 默认 的 〈 空 的 ) 符号 表 即 可 ， 
添加 时 让 这 些 声明 出 现在 主 程序 直接 外 层 的 词法 层次 。 那 些 神奇 的 过 程 则 通常 需要 在 属性 文法 
中 有 一 些 特殊 的 产生 式 来 处 理 其 特定 的 属性 。 例 如 ，Modula-2 语言 包括 几 个 多 态 的 库 过 程 ， 即 
这 些 过 程 可 接受 某 一 类 数据 类 型 中 的 任 一 类 型 的 参数 。 其 中 之 一 是 过 程 INCL， 它 的 第 一 个 参 
数 接受 一 个 集合 类 型 的 任意 变量 ， 第 二 个 参数 必须 是 一 个 与 集合 基 类 型 兼容 的 普通 表达 式 的 
值 ; 因而 , 如 果 集 合 是 SET OF CHAR, 则 第 二 个 参数 的 值 必须 是 CHAR 类 型 , 如 此 类 推 .Modula-2 
语言 不 多 许 用 户 编写 一 个 多 态 的 过 程 ， 因 而 编译 程序 必须 包含 特殊 的 约束 以 检查 传递 给 一 个 多 
态 库 例 程 的 参数 。Ada 语言 的 程序 员 可 编写 多 态 的 过 程 ， 但 Ada 语言 的 另 一 些 库 例 程 也 需要 特 
殊 的 约束 程序 进行 处 理 。 在 一 个 典型 编译 程序 中 ， 与 语言 中 所 有 其 他 的 约束 一 样 ， 我 们 也 可 花 
同样 的 力气 定义 这 些 库 的 产生 式 。 

Modula-2 语言 采用 与 其 数据 封装 机 制 MODULE 类 似 的 语法 , 为 强 类 型 语言 引入 单独 编译 的 
特性 。 内 部 模块 的 实现 不 会 带 来 什么 惊奇 ， 仅 要 求 在 模块 边界 创建 一 个 新 的 〈 空 ) BSR. H 
闭 的 环境 必须 以 一 种 对 查 表 操 作 不 透明 的 方式 与 新 的 符号 表 之 间 建 立 链接 , 但 是 对 IMPORT 和 
EXPORT 子 句 的 语义 处 理 必须 能 够 访问 它 。 单 独 编译 的 定义 模块 和 实现 模块 意味 着 在 这 些 编译 
单元 之 外 有 一 虚拟 的 环境 ， 该 环境 通常 实现 为 符号 定义 文件 和 目标 代码 文件 。 这 里 仅 提 供 一 些 
启示 ， 并 不 深入 讨论 与 处 理 模 块 声明 相关 的 特殊 问题 ， 勤 奋 的 学 生 可 在 一 道 有 趣 且 有 挑战 性 的 
练习 中 遇 到 这 类 问题 。 


5.8 在 递归 下 降 中 实现 属性 


第 4 章 展示 了 从 一 个 LL(1) 上 下 文 无 关 文法 到 Modula-2 这 类 程序 设计 语言 的 递归 下 降 分 析 
程序 之 间 的 一 一 映射 。 综 合 属性 和 从 左 到 右 的 继承 属性 及 其 求 值 函数 可 直接 添加 到 递归 下 降 分 
析 程 序 中 ， 就 好 像 添 加 到 构造 分 析 程 序 时 所 参照 的 文法 中 那样 简单 。 

每 一 继承 属性 均 作 为 实现 一 个 非 终结 符 引 用 的 过 程 调用 中 的 一 个 值 参 传 递 ; 每 一 综合 属性 
则 作为 过 程 调用 中 的 一 个 变 参 传递 。 每 一 属性 求 值 函数 是 分 析 程 序 代码 中 的 一 条 赋值 语句 ， 将 
计算 得 到 的 值 赋值 给 一 个 指定 的 属性 ; 每 一 属性 谓词 则 实现 为 条 件 测试 ， 其 选项 为 Error. Mi 
有 不 在 参数 表 中 的 综合 属性 均 实 现 为 分 析 程 序 代码 中 的 局 部 变量 。 

例如 ， 考 虑 Micro-Modula 语言 的 属性 文法 中 的 非 终 结 符 c: 


C VtblIin:symtab ltypern:int Ttypeout : int 
> "=" S itblIn Tetype [typeIn = ctype; typeOut = 2] 
 [typeOut = typeIn] 


实现 该 产生 式 的 Modula-2 语言 代码 显而易见 , 如 代码 清单 5.6 所 示 。Micro-Modula 语言 实 
现 的 剩余 部 分 留 作 读者 练习 。 


代码 清单 5.6 ”属性 文法 中 一 条 产生 式 的 Modula-2 语言 实现 


PROCEDURE C(tblIn: symtab; typeln: INTEGER; VAR typeOut: INTEGER); 
VAR 
ctype: INTEGER; 
BEGIN 
IF Nextoken = '=' THEN 
Getoken; 
S(tblIn, ctype); 
IF typeIn <> ctype THEN 


9 
tA 
n 
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Error 
END 
typeOut :- 2 
ELSE 
typeOut := typeIn 
END 
END C; 


5.9 ”实现 符号 表 


正如 这 两 者 所 表现 的 功能 所 示 ， 符 号 表 不 会 、 也 不 应 与 字符 串 表 相同 。 字 符 串 表 管 理由 字 
符 组 成 的 串 ， 从 中 抽取 简单 的 序数 句柄 以 便于 后 续 的 引用 。 为 避免 重复 浪费 ， 每 一 新 标识 符 或 
字符 串 常 量 必 须 与 表 中 已 有 的 串 逐 个 字符 地 进行 比较 ; 这 也 同时 执行 了 相等 亚 配 ， 而 相等 匹配 
在 符号 表 中 又 是 如 此 重要 。 字 符 串 表 中 仅 人 存放 了 字符 串 本 身 的 拼写 以 及 高 效 管理 所 需 的 结构 ， 
除 此 之 外 别 无 他 物 。 

符号 表 是 一 种 数据 结构 ， 其 中 存放 了 与 特定 标识 符 相 关联 的 若干 数据 。 在 一 种 块 结构 语言 
中 ， 标 识 符 可 在 符号 表 中 重复 出 现 并 关联 到 不 同 的 数据 。 

然而 ， 符 号 表 与 字符 串 表 两 者 之 问 还 是 有 些 渊源 的 。 在 历史 上 ， 字 符 串 表 往 往 髓 入 在 符号 
表 中 。 这 意味 着 并 非 将 字符 串 抽取 到 一 个 单独 的 表 中 ， 而 是 将 标识 符 的 整个 字符 串 存储 在 符号 
表 中 ， 因 而 实际 上 符号 表 的 查找 是 基于 标识 符 拼 写 的 字符 串 比较 。 为 避免 浪费 多 余 的 时 间 ， 标 
识 符 被 限制 只 能 含有 较 少 数目 的 字符 “例如 6 个 或 8 个 字符 )。 

另 一 渊源 是 这 两 张 表 都 有 一 个 功能 是 查找 一 个 标识 符 ;: 实际 上 ， 字 符 串 表 的 存在 就 是 为 了 
简化 符号 表 中 的 查找 功能 。 字 符 串 表 仅 当 遇 到 一 个 新 的 标识 符 时 才 会 增 大 ， 而 符号 表 则 可 能 随 
着 程序 的 块 结构 而 增 大 或 缩小 。 字 符 串 表 仅 向 其 数据 结构 查询 某 一 特定 的 项 目 是 否 存在 ， 而 符 
号 表 则 不 仅 查询 是 否 存在 ， 还 查询 该 标识 符 所 存储 的 值 记 录 是 什么 。 

由 于 块 结构 语言 的 符号 表 中 标识 符 可 能 重复 出 现 , 采用 第 3 章 介 绍 的 字符 串 表 查找 优化 的 
同类 技术 未 必 总 是 实用 的 。 主 要 困难 在 于 当 每 一 过 程 的 作用 域 关 闭 时 ， 当 前 级 别 的 所 有 符号 必 
须 从 表 中 删除 。 除 了 维护 一 个 简单 的 栈 结构 线性 表 之 外 ， 还 另 有 几 种 办 法 可 实现 这 一 需求 。 

类 似 于 字符 串 表 ， 符 号 表 的 最 直接 查找 优化 仍 是 散 列表 。 然 而 ， 为 保持 作用 域 洽 套 关 系 ， 
符号 表 的 每 一 词法 层次 必须 有 自己 的 散 列 表 。 有 两 种 策略 均 可 提高 效率 ， 取 决 于 表 的 相对 大 小 
以 及 向 上 层 查找 的 次 数 。 一 种 很 简单 的 做 法 是 只 要 创建 了 一 个 新 的 词法 层次 ,就 将 上 一 层次 的 
整个 散 列表 复制 到 其 中 。 新 添加 的 标识 符 建立 在 旧 表 的 基础 上 ， 重 声明 的 标识 符 直 接 取代 表 中 
原 有 的 声明 。 这 种 仅 查 找 一 张 表 的 做 法 可 取得 最 佳 的 查找 效率 ， 不 管 待 查找 的 标识 符 位 于 作用 
域 链 上 的 多 高 层次 ; 不 足 之 处 是 整 张 散 列表 及 其 所 有 的 桶 在 每 次 创建 新 作用 域 时 都 必须 重新 复 
制 。 这 在 概念 上 不 成 问题 ， 因 为 我 们 将 属性 求 值 也 理解 为 复制 ， 但 这 会 花费 一 些 时 间 ， 幸 运 的 
是 这 只 会 在 模块 、 过 程 和 记录 的 边界 处 发 生 。 

另 一 种 做 法 是 在 每 一 词法 层次 创建 一 个 新 的 散 列表 ， 并 链接 到 列表 中 的 下 一 层 。 如 果 在 当 
前 作用 域 的 散 列表 找 不 到 某 一 符号 时 ， 则 沿 着 链接 依次 查找 每 一 散 列 表 ， 直 至 找到 该 符号 。 如 
果 在 众多 词法 层次 中 每 一 层次 仅 声 明了 少量 标识 符 ， 则 这 一 做 法 退化 为 与 线性 栈 相同 的 性 能 。 
然而 ， 程 序 的 统计 研究 表明 ， 大 多 数 符号 引用 集中 在 列表 中 的 局 部 和 全 局 两 端 。 车 在 局 部 表 中 
查找 一 个 符号 失败 ， 则 立即 查找 全 局 散 列表 ， 然 后 仅 当 查 不 到 时 才 到 直接 链接 的 表 中 查找 该 符 
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号 ， 这 样 可 大 大 提高 性 能 。 只 要 在 某 局 部 作用 域 中 重 声明 了 一 个 全 局 符号 ， 在 全 局 表 中 即 设置 
一 个 标记 以 消除 这 一 查找 捷径 。 重 声明 全 局 标识 符 往往 很 少见 ， 故 可 永久 设置 这 些 标记 且 不 会 
严重 影响 效率 。 

符号 表 的 另 一 结构 取决 于 字符 串 表 管理 程序 的 支持 。 如 果 标 识 符 被 顺序 地 编号 〈 在 扫描 程 
序 中 是 很 简单 的 步骤 )， 符 号 表 可 组 织 为 记录 指针 的 线性 向 量 〈 数 组 )， 这 些 指针 可 通过 标识 符 
编号 直接 作为 下 标 。 这 样 不 再 需要 任何 查找 ， 因 为 所 有 标识 符 的 信息 记录 都 是 一 次 访问 ， 每 当 
创建 一 个 新 作用 域 ， 指 针 数 组 被 复制 到 一 个 新 的 向 量 。 从 性 能 角度 看 ， 该 方法 相当 于 一 个 完 
散 列表 ， 在 散 列 桶 中 不 存在 任何 冲突 ， 即 每 一 散 列 桶 中 最 多 只 有 一 个 元 素 。 然 而 ， 符 号 表 必 须 
与 标识 符 的 最 大 数目 一 样 长 。 


属性 文法 为 程序 设计 语言 的 语义 规格 说 明 提 供 了 一 种 方便 的 工具 ， 也 为 实现 编译 程序 和 编译 程序 编 
写 系 统 提供 了 形式 化 基础 。 借 助 于 属性 文法 已 开发 了 多 种 编译 程序 生成 工具 : MUGI 和 MUG2 
(Modularer Übersetzer Generator， 均 为 完整 的 编译 程序 生成 工具 )、GAG-A (基于 属性 文法 的 生成 工 
具 )、HLP 84 (Helsinki Language Processor 84， 是 一 个 语言 处 理工 具 箱 ) 和 TAG (本 书 中 介绍 )， 以 及 
P. Deransart 在 1988 年 列举 的 另外 33 种 现 有 的 编译 程序 生成 工具 系统 。 属 性 文法 不 仅 可 用 于 编译 程序 的 
自动 生成 , 实践 表明 它 还 有 助 于 生成 文本 编辑 环境 (参阅 [Horowitz & Teitelbaum, 1986]) 以 及 程序 优化 (本 
书 第 8 章 将 全 面 讨论 的 课题 )。 

一 个 属性 文法 由 一 个 上 下 文 无 关 文 法 和 一 个 附加 到 文法 每 一 产生 式 的 语义 规则 集 组 成 。 与 每 一 非 终 
结 符 相 关联 的 0 个 或 多 个 属性 的 值 由 这 些 语义 规则 定义 或 约束 。 一 个 输入 串 〈 属 于 某 一 语言 ) 的 含义 由 
属性 文法 中 目标 符号 的 属性 值 确定 。 有 两 类 属性 ， 综合 属性 和 继承 属性 。 综 合 属性 沿 分 析 树 向 上 传递 信 
息 ， 继 承 属性 沿 分 析 树 向 下 传递 信息 ， 将 综合 属性 和 继承 属性 组 合 在 一 起 ， 可 在 一 棵 树 的 兄弟 结 点 之 间 
传递 信息 。 

本 章 采用 Micro-Modula 语言 的 文法 展示 了 这 一 技术 ,描述 了 如 何在 一 个 属性 文法 中 检查 程序 设计 语 
言 的 特定 约束 。 本 章 介绍 的 类 型 检查 方法 是 在 符号 表 中 存储 标识 符 的 相关 信息 。 最 后 ， 本 章 扩展 了 第 4 
章 介 绍 的 将 一 个 LL(1) 上 下 文 无 关 文 法 映射 为 一 个 递归 下 降 分 析 程 序 的 方法 , 说 明了 如 何 将 综合 属性 和 继 
承 属性 添加 到 一 个 递归 下 降 分 析 程 序 中 ， 继 承 属性 作为 过 程 调用 中 的 值 参 传递 ， 综 合 属性 则 作为 变 参 传 
递 ， 属 性 谓词 实现 为 条 件 测试 。 
符号 

继承 属性 ， 记 为 Jattname。 

综合 (派生 ) 属性 ， 记 为 Tattname。 


assertion〈 断 言 ) ”在 一 条 产生 式 的 上 下 文中 约束 求 值 结 果 为 真 的 语 名 或 表达 式 。 如 果 任 一 断言 求 值 为 
假 ， 则 正在 分 析 的 串 不 属于 该 语言 。 我 们 区 分 两 类 断言 ， 属 性 求 值 函 数 和 谓词 。 
attribute evaluation function〈 属 性 求 值 函数 ) ”约束 其 属性 为 某 一 独立 已 知 的 单个 值 ， 例 如 a, = 10。 
predicate 谓词 ) ”为 属性 求 值 函数 已 约束 的 一 个 或 多 个 属性 添加 额外 限制 。 谓 词 可 约束 一 个 属性 
为 单个 值 ， 亦 可 将 该 属性 关联 到 一 个 表达 式 (可 能 涉及 另外 的 属性 )， 例 如 a >a. 
attribute (属性 ) ”描述 一 个 对 象 的 性 质 或 特征 。 在 属性 文法 中 , 对 象 是 指 一 个 非 终结 符 或 它 代 表 的 子 串 。 
上 上 下文 无 关 文法 中 的 每 一 非 终 结 符 可 与 一 个 属性 集 相关 联 ， 这 些 属性 描述 了 该 非 终结 符 所 代表 的 对 


i 
个 
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象 的 特征 或 性 质 。 
evaluation order 〈 求 值 次 序 ) 
COD 自 底 向 上 ， 当 属性 从 正 考虑 的 子 树 的 固有 性 质 推导 其 属性 值 时 。 
(2) 正 项 向 下 ， 当 属性 依赖 于 一 棵 子 树 所 处 的 上 下 文 的 某 一 部 分 时 。 
G) 从 左 到 右 ， 当 信息 由 分 析 树 中 某 一 结 点 的 左 子 树 推导 出 ， 然 后 由 右 子 树 继 承 时 。 
(40 从 右 到 左 ， 当 信息 由 分 析 树 中 某 一 结 点 的 右 子 树 推导 出 ， 然 后 由 左 子 树 继承 时 。 
inherited 〈 继 承 属 性 ) 
(OD 在 产生 式 中 一 个 由 断言 《属性 求 值 函数 ) 定义 的 属性 ， 这 些 产生 式 的 右 部 引用 了 该 属性 所 
属 的 非 终结 符 。 
(2) 记 为 Jattname。 
synthesized (综合 属性 ) 
(1) 一 个 在 所 属 的 非 终结 符 的 产生 式 内 部 定义 的 属性 ， 或 所 属 的 终结 符 本 身 固有 的 属性 。 
(2) 亦 称 派生 (derived) 属性 。 
(3) 记 为 Tattname。 
attribute grammar (属性 文法 ) ”是 一 个 三 元 组 (G V,F); 其 中 ，G 是 一 个 上 下 文 无 关 文法 ,，V 是 一 个 特 
定 属性 的 有 穷 集 ，F 是 一 个 属性 断言 的 有 穷 集 。 
constrainer (REF) ”是 编译 程序 的 一 部 分 ， 负 责 校 验 正 被 编译 的 程序 的 所 有 断言 是 否 成 立 。 
Micro-Modula (Micro-Modula 语言 ) ”是 Modula-2 语言 的 一 个 精简 子 集 ， 用 于 展示 属性 文法 的 用 法 。 
symbol table (符号 表 ) ”是 一 种 将 一 个 标识 符 集 与 一 个 值 集 相 关联 的 数据 结构 。 对 符号 表 的 访问 可 能 是 : 
(1) 如 果 标 识 符 不 在 符号 表 中 ， 则 添加 一 个 新 的 标识 符 及 其 值 。 
(2) 查找 一 个 标识 符 ， 并 检索 其 值 。 


l. 指出 以 下 每 一 属性 文法 的 总 体 属 性 值 流向 是 自 底 向 上 、 自 顶 向 下 、 从 左 到 右 、 从 右 到 左 、 存 在 循环 、 


还 是 其 他 形式 。 
(a) G >All 
Aln —Bi3n Alm 
>"c" Cin 
B Jn —"a" Blatt "b" Cl2n 
=> "b" 
C la "c" 
(b) G >A fx 
A Îx >BTtuty ATy [x-2uytv] 
l "ce" CTz [x=2z] 
B Îu fv > "a" BTrTs "b" Ctx [u22r*x-$ v-2s-«1] 
=> "b" [u=1; v=2] 
C Tx — "c" [x23] 
(c) G >Al0Tr 
A dx Tz BlyT: AlxTy 
"c" Cle ty [z=10y+3] 
B Jx Tw "a" B 410y+2Îz "b" ClxTy [w=10z4+1] 
=> "bp" [w=10x+2] 


C dx Ty > "c" [y210x43] 


EX BM AH XE 125 
(d)《〈 低 效 的 内 存 分 配 程序 ) 


D >V 10 Tm 
Via ]Tm Nila TlackTnTk V lnTm 
>e [m=a] 
TlaTxTk Nia Tlatk Tx Tk 
=> "b" [xza; k=1] 
=> "i" [x=a; k=2] 
=> "r" [x=a; k=4] 
N la = "s" 
(e)《〈 改 进 的 内 存 分 配 程序 ) 
D > V J0 Tm 
V la Tm —'s TlatnTk Nia Vint+kTm 
>E [m=a] 
TlaTxTk —"'s TlaTyTk Ny [x=y+k] 
"b" [xza; k=1] 
"i" [x2a; k=2] 
=> "r" [x=a; k=4] 
N la >E 
(0G 2ETr 
E tx 2SETv "+" TL ff [x=v+f] 
2 T 10 fx 
T dn Tm —TixTm "*" Flaemix 
>F ln Tm 
Fla Ty >F lv Ty D Tv 
>DTy [y=x+v] 
DT - "0" [v=0] 
"I" [v=1] 
(g) G >E J0 Tr 
E Js Îr >E lars Îr "+" Tlhita 
— T1 ta [r2a-s] 
T im Ty —2Timfp "*" F Jp 41 Tv 
— F 4m lity 
F 4p 4s Tv — F lp 42*s În D 4s Tb [v2n*b*p] 
> D Ls*p Ty 
D ls Ty — "0" [v=0] 
=> "1" [v=s] 


2. 对 练习 1 中 的 每 一 属性 文法 ,分 别 为 以 下 指定 的 串 构 造 分 析 树 ; 车 可 能 ， 为 每 一 非 终结 符 结 点 注释 其 
属性 值 。 
Ca) abbcabbccc 
Cb) abbcec 
(c) aabbchcabbcec 
Cd) ssisssbsrsi 
Ce) srsissbsssrsr 
Cf) O11*14+1 
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(g) 1101+11*10 
3. 转换 练习 1 的 属性 文法 (eO 和 《〈g)， 对 诸 言 中 所 有 的 串 产 生 与 原来 相同 的 综合 属性 *， 但 文法 中 仅 使 
用 综合 属性 。 


复习 小 测验 


指出 下 列 陈 述 是 否 正 确 。 

1. 对 于 一 个 给 定 的 属性 文法 ， 某 一 特定 非 终结 符 所 关联 的 属性 集 是 继承 属性 和 综合 属性 集合 的 并 集 。 

. 一 个 属性 文法 实际 上 就 是 一 个 上 下 文敏 感 文法 。 

， 在 一 个 属性 文法 中 ， 每 一 非 终结 符 有 一 个 或 多 个 属性 与 之 相关 联 。 

.编译 程序 中 的 约束 程序 将 校 验 对 应 文法 中 的 每 一 非 终结 符 至 少 有 一 个 综合 属性 。 

.一 条 产生 式 中 属性 x 和 y 相关 联 的 一 个 形 如 x<y 的 断言 就 是 所 谓 谓词 的 一 个 例子 。 

谓词 不 会 将 一 个 属性 约束 为 某 一 特定 的 值 。 

.在 一 个 属性 文法 中 ， 属 性 求 值 函数 无 法 汇集 到 空 产生 式 中 。 

.同名 异 义 是 指 语法 相同 而 语义 形式 不 同 。 

编译 程序 实验 项 目 

1. Ca) 修改 你 的 Itty Bitty Modula 语言 文法 ， 在 本 小 题 中 删除 其 中 的 过 程 和 函数 ， 但 留 下 INTEGER 和 
BOOLEAN 作为 内 置 类 型 。 为 该 文法 添加 必要 的 属性 以 及 属性 求 值 函 数 ， 从 而 文法 可 正确 地 强制 
规定 标准 Modula-2 的 类 型 规则 。 

(b) 在 TAG 编译 程序 中 编译 你 的 文法 以 测试 该 文法 ， 或 编写 一 个 递归 下 降 分 析 程 序 实现 它 。 你 的 编 

译 程序 应 接受 正确 的 程序 片段 ， 例 如 : 


TYPE a = BOOLEAN; 


[| 





VAR b: a; ... 
IF b THEN ... 
b := (3 > 2) AND (TRUE > FALSE); 


但 应 拒绝 错误 的 源 代码 文本 ， 将 它们 看 作 不 属于 该 语言 的 串 。 例 如 ， 


TYPE a = BOOLEAN; 


VAR a: INTEGER; (* 重复 声明 *) 

IF a = TRUE THEN ... (* a 被 声明 为 一 个 类 型 *) 

b := 3 > TRUE; (* b 未 声明 ， 表 达 式 中 类 型 不 兼容 *) 
IF 3 THEN ... (* 不 合法 的 条 件 类 型 *) 


2. (a) 为 你 的 文法 添加 无 参数 的 函数 ， 其 语义 支持 对 上 层 变量 的 引用 。 
(b) 测试 你 的 新 文法 ， 保 证 引用 了 作用 域 之 外 的 变量 会 报告 一 个 错误 ， 而 重 声 明 的 标识 符 会 正确 地 
屏蔽 非 局 部 声明 。 
3. 设计 一 个 库 文件 的 格式 ， 然 后 为 你 的 编译 程序 引入 单独 编译 的 特性 ， 包 括 DEFINITION MODULE. 
Pd IMPLEMENTATION MODULE 和 IMPORT f fj. [Ett DEFINITION MODULE 中 声明 的 所 有 符号 会 
自动 地 导出 到 库 中 ; 目前 还 不 必 尝 试 BXPORT TJ. 
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第 6 章 语法 制导 代码 生成 


ABBE: 

e 基于 代码 生成 序列 将 源 代 码 文本 翻译 为 目标 代码 , 这 些 代码 生成 序列 定义 在 一 个 指定 源 
代码 文本 语法 的 文法 中 

。 通过 一 个 小 型 虚拟 计算 机 的 指令 集 ， 熟 悉 目 标 计算 机 机 器 语言 的 工作 方式 

e 扩展 第 5 章 的 Micro-Modula 语言 文法 ， 在 编译 Micro-Modula 程序 时 生成 可 执行 的 目标 
代码 

。 利用 回填 技术 解决 向 前 分 支 问题 ， 从 而 有 可 能 实现 一 个 “一 遍 ” 编 译 程序 

o 揭示 不 同 控制 结构 的 代码 生成 

e 研究 访问 记录 、 数 组 、 指 针 等 数据 结构 的 代码 


6.1 简介 


编译 程序 的 总 体 目 标 是 将 源 程序 翻译 为 目标 机 器 语言 ， 又 称 目标 代码 。 目 标 代 码 必 须 保持 
与 源 程序 相同 的 语义 ， 亦 即 它们 必须 计算 出 相同 的 结果 ， 尽 管 两 者 在 语法 上 有 很 大 差异 。 迄 今 
Auk, ABH 5 章 仅 关 注 源 程 序 的 语法 正确 性 ， 包 括 那 些 也 可 被 称 为 语法 的 各 种 形式 〈 假 如 我 
们 使 用 了 上 下 文敏 感 文法 作为 描述 工具 ); 例如 ,“ 先 声明 、 后 使 用 ”规则 ， 以 及 类 型 用 法 正确 
性 等 。 这 些 是 一 个 编译 程序 前 端的 关注 点 ， 编 译 程序 前 端 负责 识别 一 个 语法 上 正确 的 源 程序 。 
现在 我 们 将 注意 力 转 移 到 后 端 ， 编 译 程序 的 后 端 关注 如 何 生 成 目标 代码 。 另 外 有 一 些 程序 使 用 
了 编译 程序 前 端的 方法 ， 但 配合 不 同 的 后 端 ， 例 如 解释 程序 、 美 化 打印 工具 〈 分 析 源 程 序 的 语 
法 并 以 合适 的 缩 进 方式 打印 出 来 )。 

最 近 有 一 些 基 于 形式 化 方法 的 研究 采用 一 个 属性 文法 描述 目标 机 器 ,然后 通过 一 个 定理 证 
明 引 擎 (使 用 人 工 智 能 技术 〉 找 出 一 个 正确 的 翻译 程序 将 源 程序 转换 为 目标 代码 。 但 是 这 些 成 
果 往 往 忽 视 了 大 量 需 要 考虑 的 因素 ， 因 而 仍 末 产生 一 些 真正 可 用 的 实用 编译 程序 。 

所 以 我 们 改 为 重点 关注 更 传统 的 方法 ， 为 源 代码 的 每 一 语法 形式 手工) 选择 合适 的 目标 
代码 序列 ， 这 种 方法 称 为 语法 制导 代码 生成 。 之 所 以 称 “ 语 法 制导 ” 是 因为 代码 生成 序列 定 
义 在 一 个 指定 源 程序 语法 的 文法 之 中 ; 换 而 言 之 , 分 析 程 序 可 严格 地 基于 被 分 析 源 代码 的 语法 ， 
去 选择 合适 的 机 器 语言 操作 序列 ， 除 常量 值 以 及 变量 与 过 程 的 机 器 地 址 之 外 ， 不 以 任何 方式 依 
赖 于 文法 的 语义 。 


62 计算 机 硬件 体系 结构 


不 同 的 计算 机 硬件 体系 结构 会 对 编译 程序 设计 人 员 产 生 不 同 影响 。 尽管 形式 语言 设计 方法 
长 期 主宰 着 源 语言 的 定义 ,但 是 对 硬件 设计 的 最 大 推动 来 自 市 场 的 压力 往往 由 机 器 语言 代码 
酷爱 者 驱动 )， 硬 件 充分 展示 了 其 影响 力 。 不 同 计算 机 环境 中 奇形怪状 的 指令 集 造 成 两 方面 
影响 。 

首先 ， 实 现 某 一 特定 源 代 码 结构 所 需 的 最 合适 指令 在 当前 正在 设计 的 编译 程序 所 面向 的 目 
标 机 器 中 未 必 存 在 ， 因 而 编译 程序 必须 生成 一 系列 其 他 指令 以 取得 同一 效果 。 
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其 次 ， 对 于 任 一 给 定 的 源 代码 结构 ， 存 在 多 种 途径 取得 同一 效果 ， 因 而 编译 程序 必须 从 中 
选择 -一 种 。 一 个 优秀 的 编译 程序 可 基于 各 种 评价 标准 动态 地 作出 选择 ， 例 如 基于 内 存 空 间或 执 
行 速度 ， 而 一 个 简单 的 编译 程序 则 很 可 能 采用 由 编译 程序 设计 人 员 预 先 作 出 的 武断 选择 。 第 9 
章 将 涉 猫 一些 与 代码 选择 有 关 的 复杂 问题 。 

除了 仅 与 高 性 能 计算 机 有 关 的 指令 调度 需求 之 外 ， 对 于 代码 生成 而 言 ， 不 同 计算 机 体系 结 
构 的 最 大 区 别 在 于 可 用 寻 址 模式 的 数量 与 种 类 。 最 早 的 计算 机 仅 有 一 个 地 方 供 计算 机 指令 取 数 
据 ， 即 主 存 。 为 实现 两 个 数 相 加 ， 必 须 指定 内 存 中 的 两 个 〈 或 三 个 ) 位 置 对 每 一 条 机 器 指令 ， 
必须 从 内 存 中 取出 数据 的 值 ， 再 将 结果 放 回 内 存 中 。 利 用 累加 器 可 消除 其 中 的 一 个 内 存 地 址 ， 
从 而 显著 地 提高 性 能 。 单 个 值 从 内 存 中 取出 〈 装 入 ) 后 放 入 累加 器 ,或 从 累加 器 存储 回 内 存 ; 
算术 运算 只 须 指定 一 个 地 址 ， 第 二 个 操作 数 总 是 累加 器 〈 如 图 6-1 所 示 )。 进 一 步 提 高 性 能 的 
途径 是 让 两 个 操作 数 都 来 自 通用 寄存 器 。 由 于 有 多 于 一 个 的 寄存 器 需 指定 ， 指 令 又 再 次 需要 
两 个 地 址 ， 但 在 指令 字 中 寄存 器 地 址 只 占用 少量 宝贵 的 位 ， 并 且 在 大 多 数 计算 机 中 访问 寄存 
器 比 访问 内 存 更 快 。 在 众多 知名 的 计算 机 中 ，DEC 公司 生产 的 PDP-11 可 能 拥有 最 简洁 的 体 
系 结构 ， 并 且 接 近 完 全 的 正 交 性 ， 亦 即 任 一 指令 均 可 在 寄存 器 或 内 存 中 找到 两 个 或 其 中 一 个 
操作 数 。 





双 地 址 : 寄存 器 一 内 存 Phe: 栈 一 内 存 





图 6-1 不 同 的 寻 址 模式 


随 着 更 小 型 计算 机 的 出 现 ， 更 短 的 指令 字 长 度 变 得 越 来 越 有 价值 ， 因 而 计算 机 体系 结构 设 
计 人 员 也 在 寻求 方法 以 限制 指定 一 个 操作 数 时 所 需 的 位 数 。 其 中 的 一 种 方法 是 使 用 寄存 器 ; 另 
一 种 方法 是 指派 一 小 块 内 存 区 域 ( 典 型 大 小 为 64 或 256 字 长 )， 从 而 可 用 更 少 的 位 数 寻 址 ; 将 
寄存 器 或 内 存 位 置 作为 操作 数 的 间接 引用 也 是 一 种 常见 方法 。 许 多 小 型 计算 机 提供 了 多 种 寻 址 
模式 供 选择 ;在 一 个 编译 程序 中 ， 选 择 合适 且 高 效 的 寻 址 模式 〈 在 需要 作出 选择 时 往往 是 相 
当 困 难 的 。 
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6.3 ” 栈 机 器 的 表达 式 求 值 


如 有 果 一 个 地 址 比 两 个 地 址 更 好 ， 那 么 可 能 零 个 地 址 是 最 好 的 。 一 个 零 地 址 计算 机 将 其 所 有 
数据 均 保 存在 一 个 操作 数 栈 的 顶部 。 第 4 章 学 习 了 一 个 带 栈 的 下 推 自动 机 (PDA) 如 何 作为 分 
析 上 下 文 无 关 语言 的 高 效 形式 化 机 器 ， 本 节 将 展示 栈 体系 结构 也 可 简化 表达 式 的 求 值 。 考 虑 以 
顺序 方式 对 一 个 简单 表达 式 3* 4 + 5 * 2 进行 求 值 ， 在 从 左 到 右 的 求 值 次 序 中 ， 计 算 机 可 完成 
的 第 一 个 运算 是 子 表达 式 3 * 4， 产 生 中 间 结 果 为 12。 这 个 值 不 能 立即 与 求 和 运算 的 另 一 个 项 
相 加 ， 因 为 男 一 个 项 本 身 又 是 两 个 因子 的 积 〈 尚 未 求 值 )。 如 果 从 右 开始 求 值 ， 也 存在 同样 的 
问题 。 我 们 无 法 避免 计算 并 保存 一 个 中 间 值 。 

车 有 足够 的 寄存 器 可 用 ， 中 间 结 果 可 存储 在 寄存 器 中 ， 直 至 寄存 器 用 完 ， 但 所 有 编译 程序 
最 终 都 需 强制 将 子 表达 式 存 储 到 内 存 中 的 临时 数据 空间 。 一 些 编译 程序 直接 将 该 职责 移交 给 程 
序 员 ， 显 示 一 条 “请 化 简 该 表达 式 ” 之 类 的 报错 信息 。 在 程序 员 卷 入 此 项 任务 时 ， 可 将 临时 数 
据 空间 分 配给 一 些 变量 ;而 由 编译 程序 自动 处 理 时 ， 依 然 是 分 配 临 时 数据 空间 ， 但 此 时 的 分 配 
方式 是 匿名 的 。 一 种 更 简单 的 方法 是 由 一 个 表达 式 栈 提供 支持 。 

考虑 如 图 6-2 所 示 表 达 式 栈 上 的 操作 序列 。 各 个 值 按 在 表达 式 中 出 现 的 从 左 到 右 次 序 压 入 
栈 中 ， 只 要 一 个 加 法 或 乘法 运算 的 两 个 操作 数 是 栈 顶 的 两 个 元 素 ， 该 运算 就 删除 弹出) 两 个 
操作 数 ， 再 将 运算 结果 压 入 栈 中 。 





图 6-2 表达 式 3*4+5*2 的 栈 求 值 过 程 


波兰 数学 家 Lukasiewicz GT-R HER) 证 明了 对 任意 带 括号 和 运算 符 优先 级 (正如 我 们 所 
熟悉 的 算术 运算 一 样 ) 的 表达 式 ， 可 通过 将 运算 符 置 于 其 操作 数 之 前 ， 等 价 地 表达 为 没有 括号 
和 优先 级 的 形式 。 因 而 ， 表 达 式 3*4+5*2 和 (3*4)+(5*2) 均 可 表达 为 无 括号 的 形式 : + 
*, 3, 4, *, 5, 2。 因 当时 特殊 的 沙文 主义 ， 他 的 工作 由 一 位 只 记得 发 明 者 的 国籍 而 忘记 其 本 人 名 
字 的 学 者 发 表 在 美国 刊物 上 ， 因 而 被 称 为 “波兰 表示 法 ”并 沿用 至 今 。 将 运算 符 移 至 操作 数 右 
边 也 可 保持 等 价 性 ,这 种 表示 法 通常 称 为 逆 波 兰 表示 法 或 后 序 波 兰 表示 法 ,但 往往 也 只 称 波兰 
表示 法 。 上 述 表 达 式 的 逆 波 兰 表 示 法 为 3, 4, *, 5, 2, *, +. 

图 6-3 展示 了 同一 表达 式 3 * 4+5*2 使 用 文法 Gs 构造 的 分 析 树 。 注意 , 以 一 种 从 左 到 右 、 
后 序 遍 历 的 方式 访问 树 中 每 一 结 点 时 ， 这 一 次 序 恰好 与 这 些 结 点 附带 的 语义 操作 需 执行 的 次 序 
完全 相同 〈 这 也 正巧 是 分 析 程 序 构造 它们 时 的 同一 次 序 )。 这 意味 着 当 从 顶部 出 发 进入 每 一 结 
点 时 ， 先 向 下 遍历 左 子 树 、 再 到 右 子 树 ， 最 后 才 正式 访问 该 结 点 ， 作 为 退出 顶部 结 点 前 的 最 后 
一 件 事 。 在 这 一 例子 中 , 进入 分 析 树 顶部 E 的 第 一 条 产生 式 后 , 立即 下 降 到 其 下 左边 的 结 点 E， 
然后 依次 到 结 点 T、T 和 FE; 在 从 叶 结 点 (单词 3) 退出 时 “访问 ”F 并 产生 “Load 3”， 到 达 
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左 子 树 上 层 的 T 后 ， 又 再 继续 向 下 遍历 其 右 子 树 直 译 结 点 FE， 并 在 退出 时 产生 “Load 4”; 终 
于 最 后 一 次 到 达 这 个 T， 在 向 上 回 到 E 之 前 产生 其 “Multiply” 运 算 。 继 续 从 顶部 的 E HF 
历 其 右 分 枝 ， 将 产生 另外 两 个 “Load” 指 令 ， 并 在 离开 顶部 已 及 其 "Add" 运算 之 前 产生 另 一 
个 “Multiply”。 





E—E«T  ['Add"] -一 | 
ET . 
ToT*F [Multiply"] 


— 
= | Multiply 
TF . VA PA * N 
F> (E) a ' 
F > num ["Load num"] . 


| Load4 Load5 
3 
Load 3 


图 6-3 文法 Gy 对 于 3*4+5*2 的 语义 动作 和 分 析 树 


由 此 易 见 ， 我 们 可 将 这 些 明 显 的 语义 动作 属性 添加 到 文法 的 产生 式 中 语法 需要 它们 的 位 
置 ， 并 且 在 栈 体系 结构 中 恰好 获得 想 要 的 计算 结果 。 这 正 是 术语 “语法 制导 翻译 ”的 含义 。 

考虑 到 栈 机 器 本 身 固 有 的 简单 性 ， 以 及 它 与 后 序 树 遍 历 和 上 下 文 无 关 分 析 之 间 的 直接 对 应 
关系 ， 本 章 重 点 考虑 表达 式 的 零 地 址 栈 求 值 。 第 9 章 将 讨论 非 栈 体系 结构 的 几 种 处 理 方法 。 


6.4 Itty Bitty 栈 机 器 


编译 程序 设计 人 员 对 目标 计算 机 机 器 语言 的 透彻 理解 是 必 不 可 少 的 。 大 多 数 真实 的 计算 机 
都 有 丰富 且 复 杂 的 指令 集 ， 但 关于 任何 特定 机 器 语言 的 教学 已 超出 本 书 范围 。 为 在 介绍 代码 生 
成 的 基本 概念 时 尽 可 能 排除 无 关 的 干扰 ， 本 书 定义 了 一 个 小 而 纯 的 栈 机 器 ， 称 之 为 BSM (Itty 
Bitty Stack Machine 的 缩写 )， 该 计算 机 中 的 操作 不 超过 30 个 ， 我 们 仅 关注 其 中 的 大 约 一 半 ， 
如 表 6-1 所 示 ; 完整 的 指令 集 定义 在 附录 C 中 。 


表 6-1 Itty Bitty 栈 机 器 的 部 分 操作 
助 记 符 功 能 
Zero 压 入 常量 0 
LoadCon «value» 压 入 <value> 
27 Load 弹出 地 址 ， 压 入 该 地 址 所 指定 的 内 存 内 容 
Store 弹出 值 ， 弹 出 地 址 ， 将 该 值 存储 到 该 地 址 所 指定 的 内 存 位 置 
11 Multiply 弹出 a; 弹出 b; HAb * a 
弹出 a; 弹出 b; 压 入 b + a 
弹出 a; 弹出 b; 压 入 b or a 
弹出 a; 弹出 b; 压 入 b and a 
16 Equal 弹出 a; 弹出 b; Hb = a 则 压 入 1， 和 否则 压 入 0 
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( 续 ) 

代码 功 能 

17 弹出 a 弹出 b; Hb < a 则 压 入 1， 否则 压 入 0 

18 Greater Mita: 弹出 b; Hb > a 则 压 入 1， 否则 压 入 0 

1 弹出 偏 移 量 ， 弹 出 值 ， 若 该 值 为 0 则 将 该 偏 移 量 加 到 程序 计数 器 (CPC) 

3 call 弹出 地 址 ， 压 入 返回 地 址 ， 跳 转 到 子 例 程 

4 Enter 弹出 数字 ， 为 该 数字 指定 数量 的 变量 分 配 空间 

5 Exit 弹出 数字 ， 为 该 数字 指定 数量 的 参数 回收 空间 ， 并 返回 调用 者 

à 压 入 本 项 的 一 个 副本 

9 弹出 两 个 值 ， 以 相反 次 序 压 回 栈 中 

24 停止 运行 

25 栈 顶 减 去 帧 指针 (FP) 


留意 在 这 些 指令 中 ， 仅 有 LoadCon 指令 具有 显 式 的 操作 数 ， 它 只 是 从 跟 在 该 指令 后 面 的 
内 存 字 中 将 一 个 常量 装 入 栈 中 。 所 有 其 他 指令 都 是 真正 的 零 地 址 ， 并 且 从 栈 中 取 走 它们 的 所 有 
操作 数 。 

如 前 所 述 ， Multiply f! add 从 栈 中 弹出 两 个 操作 数 ,， 执行 各 自 的 操作 ,然后 将 结果 压 入 
栈 中 ， 布尔 运算 符 or Aland 的 工作 方式 类 似 。 比 较 运 算 符 Equal. Less 和 Greater 也 弹 
出 两 个 操作 数 , 按 运算 符 名 字 所 示 含 义 进行 比较 , 然后 将 1 ( 真 ) 或 0 ( 假 ) 压 回 栈 中 。Negate 
只 从 栈 顶 取 走 一 个 操作 数 ， 再 将 其 算术 求 反 结 果 压 入 栈 中 。Load 从 栈 顶 弹出 一 个 地 址 (当然 
这 只 是 一 个 数字 而 已 )， 利 用 该 数字 的 值 在 内 存 中 寻 址 得 到 某 一 位 置 ， 然 后 将 该 内 存单 元 的 内 
容 的 一 个 副本 压 入 栈 中 。 类 似 地 ，store 弹出 一 个 值 和 一 个 地 址 ， 将 值 存储 到 该 地 址 指定 的 内 
存单 元 中 。zero 是 LoadCon 0 的 同 义 写 法 ， 即 它们 有 相同 的 含义 〈 机 器 上 的 效果 ) 但 有 不 
同 的 写法 〈 即 具有 不 同 的 操作 码 )。 控 制 结构 没有 那么 直观 ， 稍 后 将 更 详尽 地 讨论 它们 。 

习惯 上 ， 我 们 将 注释 写 在 助 记 符 及 其 可 能 拥有 的 所 有 操作 数 的 右边 ， 单 独 作为 一 列 。 由 于 
不 存在 汇编 程序 将 IBSM 助 记 符 转换 为 机 器 代码 ， 并 且 由 于 没 人 会 以 任何 手工 方式 书写 ISM 
机 器 指令 (除非 像 本 章 练 习 那 样 ， 目 的 是 为 了 让 你 熟悉 该 指令 集 )， 我 们 可 接受 以 相当 自由 的 
方式 表述 这 些 指令 。 在 本 书 的 练习 中 ， 鼓 励 你 无 拘 无 束 地 为 代码 书写 注释 。 

为 执行 简单 表达 式 3 * 4 + 5 * 2 的 求 值 ， 必 须 为 栈 机 器 生成 怡 好 7 条 指令 ， 且 次 序 必须 相 
同 。 据 图 6-2 可 得 (留意 每 一 行 注 释 栏 所 示 的 栈 内 容 ): 





指令 助 记 符 产生 的 栈 内 容 〈 栈 顶 在 左边 ) 
LoadCon 3 3 

LoadCon 4 4, 3 

Multiply 12 

LoadCon 5 5, 12 

LoadCon 2 2, 5, 12 
Multiply 10, 12 

Add 22 


如 果 某 一 操作 数 是 一 个 变量 而 不 是 常量 ， 则 该 变量 的 地 址 将 作为 一 个 常量 装 入 ， 然 后 用 
Load 指令 取出 该 变量 的 值 。 因 而 ， 赋 值 语句 a := b 可 编译 为 如 下 序列 : 


BAH FRBGLR 


FSW il tt 
LoadCon <a ffy ili 
LoadCon <b 的 地 址 > 
Load 


Store 
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产生 的 栈 内 容 〈 栈 顶 在 左边 ) 


a 的 地 址 
b 的 地 址 ，a 的 地 址 
b 的 值 ，a 的 地 址 


( 空 ) 


Store 指令 要 求 栈 中 有 两 个 值 : 栈 顶 的 值 是 竺 存储 的 值 ， 它 由 上 一 条 Load 指令 (该 指令 
则 从 变量 b 中 取出 该 值 ) RA; 弹出 的 第 二 个 项 目 是 变量 a 在 内 存 中 的 地 址 ， 它 由 第 一 条 
LoadCon 指令 压 入 。Store 指令 要 求 这 两 个 值 在 栈 中 的 次 序 是 地 址 位 于 待 存储 的 值 的 下 方 (之 
BRA); 因而 ， 地 址 必须 先 压 入 ， 然 后 在 存储 表达 式 的 值 之 前 必须 先 计算 该 表达 式 的 值 。 我 
们 很 快 将 看 到 , 这 正 是 我 们 能 够 产生 这 些 值 的 次 序 。 现在 考虑 赋值 语句 a := a - 1. 由 于 IBSM 





没有 减法 指令 ， 我 们 将 Negate 和 Add 两 个 操作 合 二 为 一 ， 从 而 表达 了 定义 减法 的 代数 恒 等 
X: a -b=a+ (-b). 
指令 助 记 符 产生 的 栈 内 容 《〈 栈 顶 在 左边 ) 

LoadCon «a 的 地 址 > a 的 地 址 

LoadCon <a 的 地 址 > a 的 地 址 ， a 的 地 址 

Load a 的 值 ， a 的 地 址 

Loadcon 1 1, a a 的 地 址 

Negate -1, a. a 的 地 址 

add a - 1， a 的 地 址 

Store CE) 


在 真实 的 计算 机 中 ， 所 执行 的 指令 只 是 内 存 中 的 一 些 数字 ， 每 一 数字 都 表明 了 它们 被 取出 
时 将 执行 的 操作 。 因 而 ， 要 生成 IBSM 的 代码 就 必须 生成 将 所 需 操作 编码 后 的 数字 序列 。 假 设 
变量 a 位 于 数字 3 编 址 的 内 存单 元 中 ， 则 赋值 语句 a := a - 1 可 编译 为 以 下 数字 序列 ; 


28 LoadCon <a 的 地 址 > 
3 

28 LoadCon <a 的 地 址 > 
3 

27 Load 

28 LoadCon 1 
1 

20 Negate 

12 Add 

26 Store 


代码 生成 的 语义 可 展现 在 文法 中 ,与 所 有 其 他 语义 的 处 理 几乎 完全 相同 : 将 它们 括 在 方 括 
号 中 。Micro-Modula 语言 (其 完整 的 文法 请 参阅 代码 清单 51) 中 乘法 的 产生 式 〈 重 写 规则 ) 
在 添加 了 代码 生成 语义 后 ， 形 如 : 

P—>"*"F["1]1"]P 

该 规则 阅读 起 来 的 意思 是 ， 在 分 析 了 一 条 乘法 产生 式 中 紧 跟 乘 号 的 因子 后 ， 编 译 程序 应 将 
数字 11 发 送 到 输出 代码 文件 中 。 待 生成 的 代码 与 单词 一 样 放 在 引号 中 ;， 括 住 代码 的 方 括号 避 
免 了 混淆 代码 与 单词 。TAG 编译 程序 允许 在 方 括号 中 用 引号 括 起 来 的 任意 字符 串 作 为 输出 代 
码 ， 并 原封 不 动 地 将 该 字符 串 写 进 输出 代码 文件 中 。 因 而 ， 我 们 引入 另外 的 空格 分 隔 数字 11， 
以 表示 与 它 之 前 或 之 后 的 其 他 数字 相 乘 。 
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一 些 分 析 程序 生成 工具 仅 允 许 语义 动作 放 在 产生 式 右 部 的 最 后 ， 这 不 会 造成 什么 问题 ， 因 
为 非 终结 符 可 放 在 任何 地 方 ， 并 且 空 产生 式 可 用 于 生成 代码 。 事 实 上 ， 更 简便 的 做 法 通常 是 将 
代码 生成 产生 式 汇集 到 文法 中 的 某 个 地 方 ， 以 便于 阅读 和 编辑 。 因 而 ， 上 述 单 条 产生 式 可 改写 
为 具有 相同 效果 的 两 条 产生 式 而 不 破坏 正确 性 ， 它 们 的 新 特点 是 所 有 语义 动作 都 位 于 它们 所 处 
的 产生 式 右 部 的 最 后 : 

po"'*"EMP 
Mo["11 "'] 

注意 ， 如 果 没 有 语义 则 M 将 是 一 个 空 产生 式 ， 它 不 会 识别 任何 输入 单词 。 如 果 应 用 第 2 
章 介绍 的 从 一 个 上 下 文 无 关 文 法 中 消除 空 产生 式 的 算法 ， 所 得 结果 即 为 原文 法 。 

通常 代码 生成 程序 不 仅 要 在 一 个 文本 文件 中 生成 一 个 数字 序列 ， 还 须 包括 一 些 具 有 特定 格 
式 的 二 进 制 目标 模块 文件 。 本 书 并 不 打算 深入 讨论 这 些 复杂 的 文件 格式 ， 以 空 产生 式 的 形式 编 
写 适当 的 语义 动作 例 程 即 可 轻易 解决 这 些 问 题 。 


6.5 ” 带 属性 的 代码 生成 


代码 生成 程序 直接 输出 文本 字符 串 已 足以 处 理 算术 运算 符 这 类 简单 的 语法 制导 代码 ， 然 而 
许多 输出 的 代码 依赖 于 语义 信息 ,特别 是 那些 通常 存储 在 符号 表 中 的 数据 。 事 实 上 ， 在 大 多 数 
现代 程序 设计 语言 中 ， 即 使 是 运算 符 也 是 重 载 的 ， 不 同类 型 的 操作 数 会 导致 生成 不 同 的 机 器 指 
令 。 例 如 ，Pascal 和 Modula-2 语言 中 的 乘法 运算 符 “* ”可 同时 应 用 于 整数 、 实 数 、 集 合 等 不 
同类 型 ， 这 些 操作 均 采用 了 完全 不 同 的 机 器 运算 来 实现 。 语 法 制导 代码 生成 不 再 适用 于 这 种 情 
况 ， 本 书 将 在 第 8 章 再 适当 考虑 这 些 问 题 。 

这 里 我 们 考虑 一 个 更 直接 的 问题 ， 即 变量 在 内 存 中 的 位 置 。 代 码 生成 程序 必须 能 够 输出 合 
适 的 数字 ， 以 指示 硬件 写 入 或 读 出 那些 分 配给 特定 变量 的 内 存单 元 。 在 分 析 变量 声明 语句 时 ， 
必须 将 变量 分 配 到 内 存 空间 中 ， 并 且 将 其 位 置 记录 在 符号 表 中 以 备 后 用 。 

重新 审视 第 5 章 的 Micro-Modula 语言 文法 ， 我 们 发 现 必须 扩充 变量 声明 的 非 终结 符 v 的 属 
性 ， 以 包含 下 一 个 可 用 的 变量 位 置 的 地 址 ; 并 且 还 必须 扩充 存储 在 符号 表 中 的 信息 ， 以 包含 这 一 
变量 的 地 址 。 代 码 清单 6.1 扩展 了 代码 清单 5.2 的 属性 文法 ， 从 而 可 以 处 理 新 的 代码 生成 语义 。 


代码 清单 6.1 Micro-Modula 语言 的 属性 文法 ， 可 生成 1BSM 的 代码 


predeclared 
into !SymTab !{name}int t(value)int “SymTab; 
from !SymTab !{name}int *{value}int; 
number !int (value to output]; 
newline; 
parser { 未 检测 标识 符 的 类 别 是 否 合法 ) 
G !vacantTable:SymTab 


一 > "MODULE" ID ^identno ";" 
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["3 100 0 100 -1 100"; newline] 

"VAR" V !vacantTable !3 ^tableOut ^varsOut 
O 128 O !varsOut O !4 

"BEGIN" B !tableOut 
O !24 ["-1 -32"; newline] 

"END" ID ^identno "." ; 


V !tableIn:SymTab !locIn:int ^tableOut:SymTab ^locOut:int 
一 > ID ^identno ":" T “type ";" 
[value = type + locIn * 1000] 
[into !tableIn lidentno !value ^newtable] 
V !Inewtable !locIn+1 ^tableOut ^locOut 
一 > [1ocOut = locIn; tableOut = tableIn] ; 


T ^type:int 


-> . "INTEGER" 
[tvpe - 1] 


-> "BOOLEAN" 
[type 


2] 
B !tableIn:SymTab 
一 > ID ^identno 
[from !tableIn !identno ^value] 
[loc = value / 1000] 
O 128 O !loc 
"iz" E !tableIn “type 

O !26 


[type - value - value / 10 * 10] 
B !tablein 


-> ; 
E !tableIn:SymTab ^type:int 
一 > S ltableIn ^stype C !tableIn !stype “type ; 
C ItableIn:SymTab !typeIn:int ^typeOut:int 
一 > "=" 8 !tableIn ^ctype 
0!16 
[typeIn = ctype; typeOut = 2] 
一 > [typeOut = typein] ; 
S !tableIn:SymTab ^type:int 


一 > F !tableIn ^type P !tableIn !type ; 


P !tableIn:SymTab !type:int 


136 FOF 


-> "*" F ItableIn “type 
O !11 
P !tableIn !type 
[type = 1] 


一 > "AND" F !tableIn “type 


O 115 
P !tableIn !type 
[type = 2] 


-> 
F !tableIn:SymTab ^type:int 
-> "(" E !tableIn “type ")" 
一 > ID ^identno 
[from !tableIn !identno ^value] 
[loc = value / 1000; type = value - loc * 1000] 
O 128 O !loc O !27 


一 > NUM ^value 
O !28 O !value 


[type - 1] 
-> "TRUE" 

O !28 O !1 

[type = 2] 
-> "FALSE" 

O !28 O 10 

[type = 2] 


O !value:int 
-> [number !value; newline] 


我 们 为 该 文法 添加 了 一 个 新 的 非 终 结 符 o 以 生成 输出 的 目标 代码 ;， 它 只 有 单个 继承 属性 ， 
表示 待 生成 的 值 。 该 非 终 结 符 仅 有 一 个 空 产生 式 ， 因 而 将 它 引 入 文法 的 其 他 地 方 不 会 对 语言 ; 
成 任何 影响 。 然 而 ， 非 终结 符 O 的 语义 引入 了 两 个 新 的 语义 动作 例 程 ，number 在 输出 文件 中 
生成 一 个 十 进 制 整数 ，newline 生成 一 个 行 结 束 符 。 目 标 符号 G 的 产生 式 中 第 一 个 语义 动作 
针对 IBSM 初始 化 了 输出 文件 ， 它 在 目标 代码 的 开始 处 为 栈 分 配 了 100 个 字 的 数据 空间 。 具 有 
探索 精神 的 读者 可 参阅 附录 C. T H Itty Bitty 栈 机 器 解释 程序 的 操作 细节 。 

与 Micro-Modula 语言 扩展 类 型 和 函数 声明 时 的 做 法 类 似 (尽管 此 处 的 扩展 并 未 包括 它们 )， 
我 们 将 两 个 项 目 压缩 为 一 个 值 ， 并 赋 给 符号 表 中 的 每 个 符号 : 一 个 是 变量 的 类 型 ， 另 一 个 是 它 
在 内 存 中 分 配 的 位 置 。 非 终结 符 v 分 配 空间 的 办 法 是 让 一 个 从 左 到 右 传递 的 属性 加 1， 该 属性 
负责 为 变量 的 总 数 进行 计数 。 在 一 种 更 复杂 的 语言 中 ， 我 们 不 仅 要 对 变量 进行 计数 ， 还 须 计算 
实际 分 配 的 内 存 字数 或 字 节 数 ， 取 决 于 机 器 的 体系 结构 )， 两 种 方法 在 这 里 是 相同 的 。 

一 个 新 变量 的 位 置 乘 以 1000、 再 加 上 表示 其 类 型 编码 的 整数 值 ， 即 压缩 为 符号 表 中 的 一 个 
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值 。 当 一 个 标识 符 出 现在 一 条 赋值 语句 B 或 表达 式 F 的 左边 时 ， 将 从 符号 表 中 查找 该 标识 符 ， 
并 解压 相应 的 值 。 类 型 检查 的 方法 与 以 前 一 样 ， 而 位 置 部 分 则 用 于 生成 该 地 址 的 Loadcon fà 
令 。 当 标识 符 位 于 赋值 语句 左边 时 ,所 需 的 只 有 地 址 ; 在 计算 赋值 语句 右边 表达 式 的 代码 之 后 ， 
输出 一 条 store 指令 。 留 意 代码 生成 时 的 次 序 : 首先 计算 将 被 赋值 的 那个 变量 的 地 址 ， 生 成 
的 代码 必须 先 将 它 压 入 运行 时 的 栈 中 ; 然后 为 表达 式 生 成 相应 的 代码 , 并 在 后 面 接着 一 条 Store 
指令 将 表达 式 的 值 存储 到 该 变量 中 。 

在 因子 F 的 产生 式 中 ， 变 量 引用 将 生成 一 条 LoadCon 指令 以 装 入 地 址 ， 后 面 再 跟着 一 条 
Load 指令 取出 该 变量 的 值 并 压 入 运行 时 的 栈 中 。 常 量 TRUE 和 FALSE 只 需 将 正确 的 布尔 常量 
(1 或 0) 压 入 运行 时 的 栈 中 即 可 ;而 整数 常量 则 须 生 成 代码 ， 以 压 入 扫描 程序 返回 的 任 一 数字 。 

注意 ， 除 了 符号 表 中 每 一 标识 符 所 关联 的 值 的 压缩 与 解压 之 外 ， 属 性 文法 的 类 型 检查 语义 
并 未 改变 。 类 型 检查 和 代码 生成 本 质 上 是 相互 独立 的 。 

65.1 ”运算 符 优先 级 与 结合 性 质 

算术 运算 的 标准 规则 规定 乘法 、 除 法 运算 符 比 加 法 、 减 法 运算 符 有 更 高 的 优先 级 ， 即 在 一 
个 没有 圆 括号 的 加 法 、 乘 法 混杂 的 表达 式 中 ， 先 做 乘法 再 做 加 法 。 这 种 优先 级 在 语法 文法 中 表 
现 为 表达 式 由 项 的 和 构成 ， 项 则 依次 由 因子 的 积 组 成 ， 而 不 是 其 他 的 组 成 方式 。 因 而 ， 正 如 我 
们 之 前 为 文法 添加 的 语义 ， 乘 法 是 在 一 个 项 中 执行 的 ， 而 加 法 则 是 在 一 个 表达 式 中 执行 ， 在 乘 
法 之 后 执行 。 基 本 上 运算 符 在 分 析 树 中 出 现在 越 底层 ， 则 其 优先 级 越 高 。 

容易 看 出 ， 运 算 符 的 结合 性 与 分 析 树 的 结构 有 对 应 的 关系 。 算 术 运算 符 通常 是 左 结合 的 ， 
因而 a -b+c 解释 为 与 (a 一 b)+c 相同 ,而 不 是 a-(b+c)。 这 导致 那些 缺少 结合 性 这 种 代 
数 性 质 的 运算 符 处 理 起 来 不 一 样 ， 辟 如 减法 和 除法 运算 。 在 文法 G 中 ， 加 法 和 乘法 都 是 左 结 
合 的 ，a +a+a 的 分 析 树 将 左边 的 加 法 置 于 右边 加 法 之 下 ， 从 而 为 之 生成 的 代码 在 执行 右边 加 
法 之 前 ， 先 执行 了 左边 的 加 法 ， 如 图 6-4a 所 示 。 将 该 文法 转换 为 一 个 LL(1) 文 法 时 ， 应 避免 仅 
仅 将 文法 翻转 过 来 ， 如 图 6-4d 所 示 ， 因 为 这 会 造成 文法 是 右 结合 的 。 倘 若 语义 动作 仅 将 加 法 应 
用 到 非 终 结 符 T， 本 书 采用 的 构造 方法 保持 了 左 结合 性 质 ， 如 图 6-4b 所 示 。 对 于 同一 文法 ， 错 
误 放 置 了 语义 动作 也 会 导致 加 法 是 右 结合 的 ， 如 图 6-4c 所 示 。 
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图 6-4 分 析 树 中 加 法 的 结合 性 。 左 边 的 两 个 文法 a 和 b 是 左 结合 的 ，c 和 d 是 右 结 
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138 ROOF 


6.5.2 ”程序 结构 的 语义 

如 前 所 述 ， 波 兰 表 示 法 提供 了 一 种 简洁 且 正 确 的 方法 ， 将 一 个 中 弧 表 达 式 转换 为 栈 机 器 上 
可 执行 的 代码 ; 这 种 方法 很 容易 扩展 到 处 理 简单 的 语句 , 壁 如 赋值 和 过 程 调 用 语句 。 程序 结构 ， 
特别 是 IF-THEN-ELSE 和 WHILE 循环 ， 需 要 更 细心 的 处 理 。 

自从 Dijkstra 著名 的 论文 “Goto 语句 有 害 论 ” 发 表 后 ， 现 代 程 序 设 计 语言 的 设计 已 尽量 避 
免 非 结 构 化 跳 转 的 用 法 。 不 幸 的 是 硬件 设计 人 员 既 不 愿意 也 不 可 能 听从 语言 设计 人 员 的 指挥 ， 
计算 机 硬件 中 的 基本 控制 操作 仍 是 相当 于 como 的 机 器 实现 ， 通 常 称 之 为 分 支 指令 。 

典型 的 分 支 指令 是 先 测试 当前 机 器 状态 中 的 某 一 条 件 ， 然 后 若 条 件 测试 结果 为 真 ， 则 转 去 
执行 内 存 中 某 一 指定 的 其 他 位 置 ; 否则 继续 执行 指令 序列 中 的 下 一 指令 。 不 同 的 机 器 有 不 同类 
别 的 条 件 测试 ， 通 常 也 会 包括 每 一 测试 条 件 的 补 条 件 。 例 如 ， 一 条 分 支 指令 可 能 是 当 累 加 器 为 
0 时 跳 转 ， 另 一 指令 则 会 当 累 加 器 不 为 0 时 跳 转 。 通 党 计算机 有 一 个 条 件 码 集 ， 条 件 码 将 不 同 
BS RIE BABES) 的 结果 进行 编码 ， 然 后 各 种 分 支 指令 可 测试 条 件 码 中 这 些 位 的 各 
种 有 用 的 组 合 。 实 际 上 ， 每 一 种 机 器 的 设计 还 包括 了 一 条 无 条 件 跳 转 指 令 ， 相 当 于 隐 含 的 条 件 
测试 结果 总 为 真 。 

当 分 支 发 生 时 ， 还 有 不 同 的 方法 指定 程序 继续 执行 的 地 址 。 最 早 的 硬件 指定 一 个 完整 的 内 
存 地 址 ， 后 来 顺应 指令 越 来 越 短 、 内 存 地 址 空间 越 来 越 大 的 趋势 ,有 几 种 缩 略 形式 越 来 越 流行 ， 
这 取决 于 它们 对 大 多 数 分 支 的 局 域 性 的 处 理 : 程序 中 仅 有 很 少 的 分 支 会 跳 转 到 离 分 支点 很 远 的 
地 方 。 大 多 数 流行 的 分 支 形式 是 跷 转 到 离 分 支 指令 一 个 固定 偏 移 量 的 位 置 ， 从 而 在 内 存 中 重 定 
位 程序 段 中 的 指令 不 会 导致 分 支 地 址 失效 。 这 称 为 相对 寻 址 ; 仪 含 相对 寻 址 分 支 的 程序 称 为 自 
重 定位 的 《有 时 也 称 位 置 独 立 的 )， 因 为 它们 可 不 加 修改 就 重 定 位 到 内 存 中 的 任何 位 置 。 

Itty Bitty 栈 机 器 (附录 C 给 出 了 其 完整 的 描述 》 中 的 分 支 指令 是 相对 的 ， 因 为 分 支出 现时 
栈 中 弹出 的 偏 移 量 被 累加 到 程序 计数 器 〈 即 下 一 指令 的 地 址 )。IBSM 仅 有 一 个 条 件 可 测试 ， 并 
且 该 测试 只 有 一 个 版 本 ; 条件 是 栈 中 的 第 二 个 字 是 否 为 0。0 表示 布尔 值 false， 分 支 指令 仅 
当 该 值 为 false 时 才 跳 转 ， 即 在 栈 中 弹出 的 数字 为 0 时 才 跳 转 。 选 用 三 种 比较 运算 符 之 一 ， 
就 足以 处 理 条 件 语句 和 所 有 常见 形式 的 循环 代码 。IBSM 中 无 条 件 分 支 的 组 成 是 一 条 将 0 压 入 
栈 中 的 指令 、 后 面 接着 一 条 为 0 时 分 支 的 指令 。 

考虑 一 条 简单 的 条 件 语句 : 


IF b THEN 
x 
ELSE 


Y 
END 


其 中 ，b 是 任意 布尔 表达 式 ，x My 是 任意 语句 序列 。 在 IBSM 中 实现 上 述 语 名 的 代码 是 以 下 
指令 序列 和 伪 码 ， 它 们 与 所 有 传统 计算 机 上 的 实现 没有 什么 区 别 : 


1 < 对 b 进行 求 值 的 代码 > 测试 条 件 

2 LoadCon < 偏 移 量 e - t> 如 果 为 假 ， 则 跳 过 then 部 分 
3 BranchFalse 

4 t: < 执行 x 的 代码 > then 部 分 从 此 处 开始 执行 

5 LoadCon 0 跳 过 else 部 分 

6 LoadCon < 偏 移 量 j - e> 
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7 BranchAlways 
8 e: < 执行 y 的 代码 > else 部 分 从 此 处 开始 执行 
9 j: < 接着 的 任何 其 他 代码 > 两 部 分 执行 完 后 ， 均 到 达 这 里 


计算 机 必须 对 布尔 表达 式 b 进行 求 值 (第 1 行 )， 以 判断 是 执行 THEN 部 分 还 是 执行 ELSE 
部 分 。 在 源 代 码 和 目标 代码 中 直接 跟 在 后 面 的 都 是 THEN 部 分 ， 因 而 如 果 条 件 求 值 为 Erue 则 
不 会 发 生 分 支 ， 即 分 支 指令 在 执行 时 不 做 任何 事情 ， 只 是 前 进 到 位 于 第 4 行 的 下 一 指令 。 如 果 
表达 式 求 值 为 falee， 就 必须 执行 跳 转 到 ELSE 部 分 的 分 支 ; 这 意味 着 分 支 指令 会 将 一 个 偏 移 
量 累加 到 程序 计数 器 ， 该 偏 移 量 肯定 是 从 分 支 指令 后 的 下 一 指令 (第 4 行 ， 它 也 是 THEN 部 分 
的 开始 ， 其 标号 为 “t:”) 到 ELSB 部 分 第 一 条 指令 (第 8 行 ， 其 标号 为 “e:”) 之 间 的 地 址 之 
差 ， 这 个 差 用 形 如 “e@ - t” 的 伪 码 表示 。THEN 部 分 〈 仅 当 条 件 为 真 时 执行 ) 结束 后 ， 程 序 
在 继续 执行 前 必须 跳 过 ELSE 部 分 ;这 一 跳 转 是 无 条 件 的 ， 因 而 为 了 跳 过 ELSE 部 分 ， 条 件 0 
作为 常量 被 压 入 栈 中 。 偏 移 量 采 用 与 之 前 相同 的 方法 构造 ， 即 装 入 一 个 表示 汇合 点 〈 第 9 行 ， 
其 标号 为 “j:”) 与 ELSE 部 分 起 点 之 闻 地 址 差 的 常量 。 

在 这 两 种 情况 下 ， 偏 移 量 都 是 程序 中 的 常量 ， 即 需 跳 过 的 指令 数 在 编译 时 已 固定 ， 因 而 编 
译 程序 可 知道 压 入 什么 常量 。 然 而 ， 编 译 程序 车 要 知道 这 个 数字 的 具体 值 ， 除 非 先 编译 完 所 有 
需 跳 过 的 语句 , 但 这 些 需 跳 过 的 语句 却 是 在 使 用 该 数字 的 Loadcon 指令 生成 之 后 才 被 编译 的 。 
这 就 是 在 任何 编译 程序 中 都 必须 解决 的 向 前 分 支 问 题 。 


6.5.3 向 前 分 支 问题 


向 前 分 支 问题 有 两 种 解决 途径 , 这 两 种 途径 都 较 常 见 的 。 其 中 一 种 方案 是 两 次 编译 该 程序 ， 
仅 在 第 二 次 遍历 时 才 生 成 代码 ; 第 一 次 遍历 时 找 出 并 记录 所 有 的 分 支 目标 ， 以 备 第 二 次 遍历 时 
使 用 。 采 用 该 方案 的 编译 程序 称 为 “两 遍 ” 编 译 程序 ， 因 为 它 两 次 般 历 了 该 程序 。 该 方案 的 一 
种 变形 是 将 所 有 不 完整 的 向 前 引用 转换 为 链接 程序 中 的 特殊 命令 ， 并 依靠 后 续 的 “链接 一 重 定 
位 程序 ”步骤 解析 这 些 向 前 引用 。 尽 管 两 次 读 入 源 程 序 文本 会 消耗 更 多 的 时 间 ,“ 两 遍 ” 编 译 
程序 在 编译 不 要 求 “ 先 声明 、 后 使 用 ”的 语言 时 是 非常 必要 的 ， 因 为 在 第 一 次 遍历 中 并 不 能 总 
是 知道 任 一 标识 符 的 引用 会 生成 什么 代码 。 

第 二 种 方案 是 在 编译 时 保留 每 一 个 不 完整 的 向 前 分 支 记 录 , 然后 在 目标 地 址 变 为 已 知 的 时 
候 ， 在 输出 代码 中 回 到 原来 位 置 并 为 偏 移 量 或 分 支 地 址 填写 正确 的 值 。 该 方法 称 为 回填 ， 基 于 
该 方法 有 可 能 构造 出 一 个 “一 遍 ” 编 译 程序 。 我 们 采用 Pascal 和 Modula-2 这 类 块 结构 语言 
助理 解 这 一 方法 ， 尽 管 这 类 语言 要 求 在 输出 文件 中 有 一 些 非 顺序 性 。 

所 有 地 址 偏 移 量 的 计算 都 必须 基于 已 生成 的 指令 的 地 址 ， 而 这 些 指令 反 过 来 又 要 求 代码 生 
成 产生 式 自始至终 将 该 地 址 偏 移 量 的 值 作为 随身 携带 的 属性 。 一 种 可 行 的 办 法 是 综合 出 一 个 表 
示 大 小 的 属性 ， 当 该 属性 沿 分 析 树 向 上 流动 时 累加 其 值 ， 并 且 该 属性 可 为 生成 一 个 分 支 的 相对 
偏 移 量 提供 足够 的 信息 。 然 而 ， 我 们 更 喜欢 从 左 到 右 的 绝对 地 址 属性 ， 从 而 在 我 们 以 后 为 符号 
表 提 供 一 个 过 程 的 绝对 地 址 时 也 可 用 到 该 属性 。 为 IF 和 其 他 语句 生成 代码 的 属性 文法 片段 (不 
含 类 型 检查 〉 如 代码 清单 6.2 Stax: 在 该 文法 中 ， 非 终结 符 Bmit 负责 维护 输出 目标 代码 时 的 
位 置 计 数 器 。 
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代码 清单 6.2 HI 语句 生成 回填 代码 


Stmt !locIn:int ^locOut:int 


-> "IF" BoolExpn !locIn ^locEx 
Emit 328 !locEx ^locOff1 
Emit !0 !locOffl ^locBrf 
Emit !1 !locBrf “locThen 
"THEN" Stmts !locThen ^locLdz 
Emit !30 !locLdz ^locLdc 
Emit !28 !locLdc ^locOff2 
Emit !0 !locOff2 “locBra 
Emit !1 !locBra “locElse 
"ELSE" Stmts !locElse ^locOut "END" 
BackPatch !locOut !locOffl !locElse-locThen 
BackPatch !locOut !locOff2 !locOut-locElse 
-> OtherStmt !locIn ^locOut 


BackPatch !locn:int !locOff:int !value:int 
-> ["-1 "; number !locOff; newline] 


[number !value; newline] 
["-1 "; number !locn; newline] 


了 
Emit !value:int !locIn:int ^locOut:int 


-> [number !value; newline; locOut = locIn + 1] 


假设 该 编译 程序 为 一 个 标准 IBSM 装载 程序 生成 代码 ;该 装载 程序 在 识别 到 一 个 “-1” 后 
面 跟着 一 个 数字 时 ， 会 将 装载 地 址 重 定向 为 该 数字 。 因 此 ， 我 们 不 必 回 退 或 回 卷 输出 文件 ， 也 
不 必 将 输出 文件 整个 缓存 在 内 存 中 。 非 终结 符 BackPatch 在 指定 的 地 址 生成 一 个 字 〔 使 用 该 
地 址 重 定向 ), 然后 将 地 址 位 置 计数 器 恢复 为 当前 地 址 (通过 第 一 个 继承 属性 loon 传递 给 它 )。 
试看 该 文法 如 何 编译 一 个 小 程序 片段 。 给 定 以 下 语句 序列 : 


a := 3; 
IF a < b THEN 
b := 1 
ELSE 
b := 5 
END; 
C := 0; 


假设 当前 位 置 计数 器 为 147， 且 a、b 和 c 的 局 部 地 址 分 别 为 11、12 和 13。 考 虑 分 析 程 序 
正 准 备 接受 单词 IF 时 的 场景 ， 此 时 输出 文件 如 下 所 示 (为 更 清晰 地 表示 ， 同时 显示 了 位 置 计 
数 器 的 值 和 指令 助 记 符 ， 尽 管 它们 不 会 出 现在 输出 文件 中 ): 


(147) 28 LDC 11 ( 装 入 a 的 地 址 ) 


(148) 11 
(149) 28 LDC.3 ( 装 入 常量 3 ) 


(150) 3 


EHI HEAR AE 141 
(151) 26 ST ( 将 常量 3 存储 到 a ) 
(152) 
现在 分 析 程 序 处 理 到 非 终结 符 stmt, A locIn 为 152。 下 一 单词 是 IF， 故 扫描 程序 接受 
该 单词 后 ， 分 析 程 序 以 继承 属性 locIn = 152 调用 非 终 结 符 BoolExpn 以 分 析 布 尔 表 达 式 a < 
p， 从 而 生成 如 下 代码 : 


(152) 28 LDC 11 ( 装 入 a 的 地 址 ) 

(153) 11 

(154) 27 LD ( BA a mé ) 

(155) 28 LDC 12 ( Ab 的 地 址 ) 

(156) 12 

(157) 27 LD ( BA b 的 值 ) 

(158) 17 LESS ( 执行 比较 ) 

(159) 

现在 从 BoolExpn 回 到 非 终 结 符 Stmt， 所 携带 的 综合 属性 locEx 值 为 139， 此 时 又 多 生 
成 三 条 指令 字 : 

(159) 28 LDC 0 ( 偏 移 量 的 占 位 符 ) 

(160) 0 

(161) 1 BRF ( 为 假 时 分 支 ) 

(162) 


综合 属性 locoffi 的 值 为 160， 地 址 0 最 终 将 被 向 前 分 支 的 偏 移 量 取代 。 综 合 属性 
locThen 的 值 为 162， 即 rr 语句 中 THEN 部 分 的 起 始 地 址 ， 同 时 也 是 计算 分 支 偏 移 量 时 必 不 
可 少 的 基地 址 。 如 果 我 们 在 IBSM 上 运行 这 些 代码 并 观察 栈 中 的 内 容 ， 它 将 具有 如 图 6-5 所 示 
WE OX b 4. 


四 四 
uH moblmt sus 
147 149 151 152 154 155 157 158 159 161 位 置 
时 间 一 
图 6-5 语句 序列 “a:=3;IFa<bTHEN ...” 的 执行 轨迹 
接着 以 继承 属性 LocThen 中 的 当前 地 址 162 递归 地 调用 非 终结 符 Stmts， 为 赋值 语句 生 


成 代码 ， 生 成 代码 后 综合 属性 lochdz 的 求 值 结果 为 167。 另 外 再 生成 4 个 字 的 代码 后 ， 输 出 
文件 形 如 : 





(162) 28 LDC 12 CEA p 的 地 址 ) 

(163) 12 

(164) 28 . LDC 1 ( 装 入 常量 1 ) 

(165) 1 

(166) 26 ST ( 将 常量 1 存储 到 Pb ) 

(167) 30 ZERO ( 将 FALSE 压 入 栈 中 ) 

(168) 28 LDC 0 ( 另 一 偏 移 量 的 占 位 符 ) 

(169) 0 

(170) 1 BRF ( 实现 Branchalways， 即 绝对 跳 转 ) 
(171) 
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留意 IBSM 并 没有 真正 的 BranchAlways 指令 ， 这 一 效果 是 通过 0 和 BranchFalse 指 
令 合 成 的 。 执 行 到 这 里 ， 分 析 程 序 将 接受 单词 ELSE 并 返回 非 终结 符 Stmts， 同 时 携带 了 一 个 
新 的 继承 属性 LocElse, 其 值 为 171.。 尽 管 此 处 并 未 给 出 完整 的 规格 说 明 , 但 是 非 终 结 符 stmts 
会 将 该 属性 看 作 自 己 的 一 个 继承 属性 (可 能 命名 为 1ocIn), 正如 它 之 前 以 同样 方式 看 待 值 162; 
在 生成 b := 5 的 代码 后 ， 返 回 一 个 综合 属性 (在 stmt 中 以 locout 命名 )， 其 值 为 176: 


(171) 28 LDC 12 (EA b 的 地 址 ) 
(172) 12 

(173) 28 LDC 5 ( 装 入 常量 5 ) 
(174) 5 

(175) 26 ST ( 将 常量 5 存储 到 了 bb ) 
(176) 


到 了 这 里 , 正 是 回填 技术 最 吸引 人 的 地 方 。 非 终结 符 BackPatch 被 指定 了 三 个 继承 属性 : 
第 一 个 是 当前 位 置 ， 从 而 它 可 在 回填 后 恢复 指令 序列 顺序 中 的 下 一 个 字 的 装 入 地 址 ;第 二 个 属 
性 是 待 回填 的 内 存 地 址 ;第 三 个 属性 是 将 填 入 该 位 置 的 值 。 局 部 属性 locoffi 和 locoff2 
分 别 保留 了 两 个 占 位 符 0 的 地 址 ， 每 一 个 占 位 符 均 需 调用 一 次 BackPatch。 据 前 述 在 IBSM 
上 实现 IF 语句 的 伪 码 , 第 一 次 回填 需要 ELSE 部 分 与 THEN 部 分 的 地 址 之 差 , 即 171 - 162 = 9. 
在 最 后 的 代码 生成 后 ，BackPatch 为 这 三 行 在 输出 文件 产生 以 下 代码 ; 


(175) 26 ST ( 将 常量 5 存储 到 了 ) 
-1 160 ( 偏 移 量 的 地 址 ) 
(160) 9 ( 偏 移 量 的 值 ) 
-1 176 ( 恢复 当前 地 址 ) 
(176) 


第 二 次 调用 非 终结 符 BackPatch 时 ， 继 承 属 性 locoff 的 值 为 169 (地 址 存放 在 
locOff2), H value 的 值 为 5 (HN 176-171); 故 又 有 以 下 三 行 添加 到 输出 文件 中 : 


-1 169 ( 偏 移 量 的 地 址 ) 
(169) 5 ( 偏 移 量 的 值 ) 
-1 176 ( 恢复 当前 地 址 ) 


最 终 ， 非 终结 符 Stmt 退出 ， 其 综合 属性 locout 的 值 为 176， 即 待 生成 的 下 一 机 器 指令 
的 地 址 。 接 在 IP 语句 后 的 赋值 语句 又 生成 5 个 字 的 代码 ， 结 果 前 述 三 条 高 级 语言 语句 的 输出 
文件 片段 形 如 (以 3 列 展示 ， 不 再 显示 注释 ): 


28 1 26 

11 28 -1 160 
28 12 9 

3 28 -1 176 
26 1 -1 169 
28 26 5 

1i 30 -1 176 
27 28 28 

28 0 13 

12 1 28 

27 28 0 

17 12 26 

28 28 
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然而 , 如 果 在 上 述 文件 装 入 内 存 后 按 传 统 方法 打印 内 存 , 可 看 到 偏 移 量 的 值 被 正确 地 设置 ， 
类 似 如 下 《〈 内 存 地址 和 数据 按 十 进 制 显示 ): 


0147 48 11 28 
0150 03 26 28 11 27 28 12 27 17 28 
0160 09 01 28 12 28 01 26 30 28 05 


0170 01 28 12 28 05 26 28 13 28 00 


的 偏 移 量 ( 为 负数 )， 但 由 于 这 两 个 位 置 在 代码 生成 时 均 已 固定 ， 因 而 并 不 需要 回填 技术 。 当 然 ， 
循环 条 件 求 值 为 假 时 ， 向 前 分 支 仍 要 求 回填 以 保证 其 偏 移 量 被 正确 地 设置 。 对 于 以 下 循环 : 


WHILE b DO 
x 

END 

生成 的 代码 应 如 下 所 示 : 

t: «XI b 进行 求 值 的 代码 > 循环 前 的 测试 条 件 
LoadCon < 偏 移 量 e - b> 如 果 为 假 则 退出 
BranchFalse 

b: ”< 执行 x 的 代码 > 执行 循环 体 
LoadCon 0 跳 回 循环 的 开头 
LoadCon < 偏 移 量 t - e> 
BranchAlways 

e: ”< 接着 的 任何 其 他 代码 > 循环 结束 后 到 达 这 里 


实现 上 述 代码 的 属性 文法 产生 式 留 给 学 生 作为 练习 。 
6.6 ”过 程 和 函数 的 代码 生成 


大 多 数 传统 的 过 程式 程序 设计 语言 中 , 过 程 与 函数 的 区 别 仅 在 于 是 否 有 返回 值 ; 除 此 之 外 ， 
参数 〈 如 果 有 的 话 ) 的 求 值 方式 是 相同 的 ， 调 用 序列 是 相同 的 ， 进 入 和 退出 过 程 或 函数 的 代码 
也 是 相同 的 。 可 能 正 因为 如 此 , 沃 思 将 Pascal 语言 改进 为 Modula-2 语言 时 , 不 再 将 FUNCTION 
列 为 单独 的 关键 字 。 

早期 计算 机 体系 结构 的 一 大 创新 〈 回 到 真空 管 时 代 ) 是 子 例 程 (过程) 调用 的 概念 ， 其 中 
硬件 负责 保存 子 例 程 结束 后 返回 的 指令 地 址 。 事 实 上 ， 每 一 种 现代 计算 机 的 指令 集 现在 都 包含 
两 条 指令 ， 以 实现 高 效 的 子 例 程 调用 与 返回 。call 指令 〈 有 时 也 称 子 例 程 跳 转 指令 ) 将 下 一 
指令 的 地 址 保存 在 某 一 指定 的 位 置 ( 通 常 是 在 硬件 的 栈 中 ， 但 很 多 时 候 改 为 在 寄存 器 中 )， 然 
后 无 条 件 跳 转 或 分 支 到 一 个 子 例 程 的 地 址 ，Return 指令 将 程序 控制 恢复 为 所 保存 的 地 址 。 现 
代 高 级 语言 通常 还 需要 另外 的 辅助 指令 负责 传递 参数 、 在 子 例 程 中 为 局 部 变量 分 配 存储 空间 、 
允许 递归 等 。 有 三 个 代码 序列 值得 特别 关注 ; 子 例 程 的 进入 、 退 出 和 调用 。 一 个 给 定 的 子 例 程 
往往 不 只 一 次 被 调用 ， 因 而 将 进入 和 退出 代码 尽量 集中 在 子 例 程 之 中 是 更 有 利 的 ， 而 不 是 在 每 
一 调用 序列 中 复制 这 些 指 令 。 ， 

进入 一 个 过 程 大 体 上 与 进入 一 个 程序 是 相同 的 , 但 没有 初始 化 输出 代码 模块 的 代码 文件 设 
置 语义 ， 取 而 代 之 的 代码 是 建立 一 个 称 为 Display 表 的 指针 数组 。 每 一 指针 包含 了 当前 过 程 的 
外 围 过 程 中 的 局 部 变量 空间 的 地 址 。 在 C 和 FORTRAN 这 类 非 嵌 套 型 语言 中 ，Display 表 仅 需 
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两 个 入 口 ， 局 部 变量 和 全 局 变量 ， 因 而 节省 了 初始 化 设置 的 大 部 分 开销 。 在 IBSM 中 ， 构 造 一 
个 Display 表 涉 及 将 33 条 指令 压缩 为 16 个 字 。 然 而 ， 代 码 生 成 的 语义 并 不 关心 构造 Display 
表 的 技术 细节 (有 一 份 类 似 菜谱 的 说 明 就 足以 满足 我 们 的 需要 )。 子 例 程 的 退出 代码 仅 有 两 条 
ES, 第 一 条 指令 将 一 个 表示 形式 参数 个 数 的 常量 压 入 栈 中 , 第 二 条 指令 将 实现 子 例 程 的 退出 。 
与 硬件 细节 有 关 的 进入 和 退出 代码 跟 这 里 的 关系 不 大 , 况且 每 一 计算 机 都 是 不 同 的 。 有 兴趣 的 
读者 可 参阅 附录 C 中 关于 Itty Bitty 栈 机 器 过 程 进入 和 退出 的 完整 代码 。 

一 个 过 程 的 调用 序列 由 以 下 指令 组 成 : 对 每 一 值 参 〈 如 果 有 的 话 )， 将 其 表达 式 值 压 入 栈 
中 ;接着 将 被 调用 过 程 的 地 址 及 其 父 过 程 的 帧 指针 压 入 栈 中 ， 然 后 是 一 条 Call 指令 。 父 过 程 
的 帧 指针 用 于 构造 Display 表 ， 以 支持 对 非 局 部 变量 的 访问 。 

函数 调用 会 在 参数 压 栈 之 前 ， 先 将 返回 值 的 空间 压 入 栈 中 。 函 数 还 有 一 条 RETURN 语句 ， 
该 语句 必须 将 待 返回 的 值 保存 到 由 调用 者 在 栈 中 保留 的 函数 返回 结果 空间 中 ， 然 后 退出 函数 。 
图 6-6 展示 了 IBSM 中 一 个 函数 过 程 的 调用 、 进 入 和 退出 代码 的 常见 结构 。 

















主 程序 代码 BRB 
o abc: LoadCon n (分 配 局 部 变量 ) 
Enter 〈 并 创建 局 部 帧 ) 
o 构造 Display 表 
LoadCon 0 (返回 结果 的 空间 》 过 程 代码 的 起 点 
将 参数 压 入 栈 中 。 
将 父 帧 指针 压 入 栈 中 。 
LoadCon abc 〈 子 例 程 地 址 ) 保存 函数 的 返回 结果 
Call (执行 函数 》 。 
使 用 返回 结果 ° 
e 过 程 代 码 的 结束 
LoadCon k ( 待 弹出 的 参数 个 数 ) 
Exit (返回 调用 者 》 


图 6-6 IBSM 中 的 函数 调用 、 进 入 和 退出 代码 


6.7” 块 结构 的 栈 帧 管理 


在 Modula-2 或 Pascal 这 类 块 结构 语言 中 ， 一 条 语句 不 仅 可 引用 直接 包含 了 该 语句 的 过 程 
中 的 局 部 变量 ， 还 可 引用 包围 了 其 直接 过 程 的 任 一 外 围 过 程 中 的 所 有 变量 。 第 5 章 学 习 了 这 种 
结构 如 何 影响 到 符号 表 的 管理 ， 现 在 须 考 虑 正在 执行 的 程序 如 何 能 访问 到 这 些 变量 〈 从 而 可 装 
入 或 存储 这 些 变量 中 的 值 )。 像 C 和 FORTRAN 这 类 非 块 结构 语言 没有 这 一 问题 ， 因 为 在 任何 
时 候 都 仅 有 两 个 层次 是 可 见 的 : 全 局 的 〈 在 FORTRAN 语言 中 称 为 COMMON) 或 局 部 的 ， 所 有 
过 程 均 不 可 访问 任何 其 他 过 程 中 的 变量 ， 除 非 将 引用 作为 参数 传递 。 
6.7.4 帧 与 帧 指针 

每 一 过 程 或 函数 在 进入 时 〈 即 它 被 调用 时 )， 会 分 配 一 些 内 存 以 存储 它 的 局 部 变量 。 这 一 
内 存 块 称 为 “ 帧 ” 它 通 常 具有 固定 的 大 小 ， 因 为 在 编译 时 可 确定 有 多 少 变 量 使 用 了 多 少 个 字 
的 内 存 。 被 递归 调用 的 过 程 在 每 次 实例 化 时 都 会 分 配 一 个 新 的 帧 ， 因 而 每 一 调用 实例 的 变量 之 
间 不 会 相互 影响 。 

有 些 语言 允许 使 用 静态 变量 , 它们 并 不 在 局 部 帧 中 分 配 空间 ; 这 些 变量 实际 上 是 全 局 变量 ， 
但 仅 在 它们 被 声明 的 过 程 中 才 是 可 见 的 。 由 于 除 可 见 性 之 外 ， 它 们 的 作用 与 全 局 变量 相同 ， 此 
处 对 它们 不 作 特别 考虑 也 是 无 妨 的 。FORTRAN 语言 的 大 多 数 实现 是 让 所 有 变量 都 是 静态 的 。 
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局 部 变量 帧 通常 由 一 个 硬件 实现 的 帧 指针 来 访问 ， 该 指针 要 么 是 一 个 专用 于 此 目的 的 特殊 
寄存 器 (正如 Itty Bitty 栈 机 器 的 设计 )， 要 么 是 一 个 习惯 上 用 于 此 目的 的 通用 地 址 寄存 器 。 于 
是 局 部 变量 由 从 当前 帧 指针 开始 计算 的 固定 偏 移 量 寻 址 ,我 们 保存 在 符号 表 中 的 正 是 这 些 偏 移 
量 (与 变量 的 类 型 和 类 别 同时 保存 )。 局 部 帧 通常 还 包含 由 过 程 调用 者 保存 的 寄存 器 〈 亦 称 “ 状 
态 ”)。 这 些 帧 通常 动态 地 分 配 ， 并 链接 在 一 起 形成 一 个 链表 ; 要么 在 一 个 栈 中 顺序 地 分 配 。 

图 6-7 ERT ARET NH a M B 的 主 程序 所 用 的 局 部 变量 帧 的 链表 。 当 一 个 过 程 或 函 
数 终止 并 返回 其 调用 者 时 ， 该 过 程 或 函数 将 释放 其 局 部 帧 ， 并 将 硬件 指针 恢复 为 撒 向 其 调用 者 
的 帧 ， 同 时 恢复 原来 保存 的 所 有 其 他 状态 〈 例 如 寄存 器 )。 在 IBSM 中 ， 这 一 过 程 由 单条 Exit 
指令 基本 上 自动 完成 。 





MODULE Main; Main 调用 AA 
PROCEDURE A; A 调用 B 
PROCEDURE B; B 递归 地 调用 B 
BEGIN B 再 次 递归 地 调用 B 








最 后 B 递归 地 调用 和 








IF whatever THEN B ELSE A END; 


END B; 
BEGIN (* A *) 
B 
END A; 
BEGIN (* Main *) 
A 
END Main. 


图 6-7 ”变量 帧 的 一 个 链表 ， 同 时 展示 了 程序 代码 清单 ， 以 及 拍摄 帧 快照 这 一 时 刻 的 程序 执行 轨迹 
6.7.2 ”静态 链 与 动态 链 

在 C 语言 这 类 递归 的 、 但 非 块 结构 的 语言 中 ， 只 有 全 局 变量 《往往 分 配 在 内 存 中 的 固定 位 
置 ， 或 通过 另 一 专用 寄存 器 访问 ) 和 局 部 帧 。 而 像 Modula-2 这 类 块 结构 语言 中 ， 通 常 不 仅 需 
要 访问 局 部 变量 和 全 局 变量 ， 而 且 还 必须 能 够 访问 中 间 层 过 程 的 局 部 变量 。 程 序 必须 获得 一 个 
过 程 的 帧 指针 ， 方 可 访问 该 过 程 中 的 这 些 变量 。 链 表 中 的 下 一 帧 表示 了 调用 者 的 顺序 ， 但 它们 
很 多 时 候 并 不 能 帮助 访问 包围 了 该 过 程 作用 域 的 上 一 层 作 用 域 。 

例如 ， 如 果 一 个 过 程 递 归 地 调用 自身 ， 就 会 有 同一 过 程 的 几 个 帧 链接 在 一 起 ， 如 图 6-7 中 
过 程 B 的 帧 所 示 ， 然 而 对 上 层 《〈 非 局 部 ) 变量 的 引用 在 查找 包含 被 引用 变量 的 帧 时 《可 能 在 过 
程 A 中 )， 必 须 绕 过 所 有 这 些 帧 。 因 而 ， 帧 通常 还 用 另 一 个 链表 连接 在 一 起 ， 用 于 表现 作用 域 
可 见 性 的 链接 。 这 一 条 链 称 为 静态 链 ， 而 调用 者 的 链 则 称 为 动态 链 。 

像 Lisp 这 类 动态 作用 域 语 言 仅 使 用 动态 链 访问 非 局 部 变量 , 但 由 于 这 类 语言 的 编程 充满 了 
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潜在 错误 ， 所 以 很 少 语言 会 背离 Pascal 和 Modula-2 这 类 语言 的 静态 作用 域 规则 。 实 际 上 ，Lisp 
语言 的 一 些 变形 已 回归 到 静态 作用 域 。 
6.7.8 帧 指针 的 Display 向 量 

访问 非 局 部 变量 的 最 简单 办 法 ， 是 在 每 一 过 程 入 口 处 构建 一 个 帧 指针 的 向 量 ， 称 之 为 
Display 表 。 在 一 个 静态 确定 作用 域 的 语言 中 ， 词 法 层次 是 指 源 代码 文本 中 所 包含 的 过 程 的 数 
量 ， 这 在 编译 时 即 可 确定 。 因 而 Display 表 是 一 个 固定 长 度 的 数组 ， 其 元 素 个 数 与 当前 的 词法 
层次 相同 ， 每 一 元 素 按 词 法 层次 顺序 指向 一 个 所 包含 的 过 程 的 帧 指针 。 

在 IBSM 中 ，Display 表 并 不 是 由 指针 组 成 , 而 是 由 从 当前 帧 指针 开始 计算 的 《用 一 个 负数 
表示 ) 偏 移 量 组 成 。 构 建 Display 表 的 IBSM 指令 顺 列 并 没有 很 大 的 指导 意义 ， 因 而 此 处 仅 以 
十 进 制 绝对 值 展示 这 些 代 码 ， 有 兴趣 的 读者 可 参阅 附录 C 中 的 完整 代码 清单 。 代 码 清单 6.3 是 
Micro-Modula 语言 属性 文法 的 一 个 片段 ， 展 示 了 如 何 设置 无 参数 函数 的 头 部 (为 表述 清晰 ， 我 
们 再 次 省 略 了 类 型 检查 ); 过 程 头 部 与 此 仅 有 少许 差别 ， 其 不 同 之 处 是 显而易见 的 。 


代码 清单 6.3 无 参数 函数 的 过 程 头 部 属性 


H !tblIn:SymTab !locIn:int !lex:int ^tblOut:SymTab ^locOut:int 


一 > "PROCEDURE" ID ^identno ":" T ^type 

[value = type + locin * 1000 + lex * 100 + type + 40] 
[into !tblIn !identno !value ^nextable] 
[open !nextable ^newtable] 

"VAR" V !newtable !0 !lex41 ^vtable ^nvars 
Emit !30 !locIn *loci ~ { RERA } 
Emit !28 !locl ^loc2 
Emit !0 !loc2 ^loc3 
Emit !1 !loc3 ^locn 

H !vtable !locn !lex«1 ^btable ^locd 
BackPatch !locd !loc2 !locd-locn 
Display !locd !nvars !lex«1 ^locb 

"BEGIN" B !locb !type !lex+1 !nvars ^locx 
Emit !28 !locx ^loc6 { Bl LoadCon nargs + 1184 ) 
Emit !1 !loc6 ^loc7 
Emit !5 !loc7 ^locz 

"END" ID ^identno ";" 

H !nextable !locz !lex ^tblOut ^locOut 





一 > [locOut = locIn; tbiOut = tblIn] 


Display !locIn:int !nvars:int !lex:int ^locOut:int 


C 建立 过 程 或 函数 入 口 ， 并 分 配 局 部 变量 } 


-> Emit !28828 !locIn ^locl ( 总 共 15 字 } 
Emit !nvars !locl ^loc2 
Emit !lex !loc2 ^loc3 
Emit 44968 !1oc3 ... 
[继续 输出 以 下 数字 : 13288, 30, 21481, 268, 1149, 26473, 7102, 52, 32044, 31124] 
Emit 1353661 !loc14 ^locOut 


在 一 个 过 程 或 函数 之 中 ， 先 用 Loadcon 读 入 地 址 偏 移 量 后 ， 再 接着 一 条 Load 或 Store 
指令 ， 仍 可 像 以 前 那样 访问 局 部 变量 。 在 IBSM 中 ， 所 有 内 存 均 通过 当前 过 程 的 帧 的 相对 位 置 
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来 引用 ， 该 帧 是 在 过 程 的 入 口 处 建立 的 ， 非 局 部 变量 仅 可 间接 地 通过 Display 表 访 问 。 由 于 在 
语法 上 无 法 区 分 局 部 变量 与 非 局 部 变量 ， 我 们 同时 也 为 局 部 变量 生成 Display 表 的 访问 代码 。 
构造 一 个 局 部 变量 或 非 局 部 变量 地 址 的 TBSM 指令 序列 是 : 


LoadCon «offset» { 变量 在 它 所 属 过 程 的 帧 中 的 位 置 } 
LoadCon «display + lexlevel>  ( 指向 Display 表 的 下 标 } 

Load { 取 变 量 所 在 帧 的 偏 移 量 } 

Add 


MODULE Demo; 
VAR 
a, b, c: INTEGER; 





x 的 Display 表 
PROCEDURE x(): INTEGER; s 
VAR 
S, t: BOOLEAN; t 
x 的 动态 链 
PROCEDURE y(): BOOLEAN; 
VAR x 的 返回 地 址 
v: INTEGER; x 的 静态 链 
BEGIN (* y *) 
v := x(): x 
RETURN b = v 
END y; 









s 
t 

x 的 动态 链 
x 的 返 盯 地 址 
x 的 静态 钾 


y ÑU Display Æ B 
BEGIN (* x *) 715 
S i= a< b; | 
a:- a1; M 
IP s THEN t i= y() END; yas | OJ 
RETURN a - b | 
END x; y 的 返回 地 址 
ym ^ o 一 一 
BEGIN (* Demo *) |] 
a := 1; y 
bii | 0 — | 
C i= X() 


J f 
JL 


x 


Demo 的 Display # 


t 0] 





图 6-8 ”递归 调用 过 程 中 的 IBSM 栈 。 该 快照 展示 了 对 过 程 x 的 内 层 调 用 中 ， 
执行 到 那 条 用 方 框 标注 的 RETURN 语句 时 的 栈 


符号 表 为 该 变量 指明 了 当前 的 offset 和 lexlevel; lexlevel 为 0 表示 全 局 变量 , 为 
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1 表示 所 包含 过 程 的 第 一 层 中 的 变量 ， 如 此 类 推 。 通常 lexlevel 作为 一 个 继承 属性 在 分 析 过 
程 中 传递 ， 并 且 当 一 个 变量 被 声明 时 被 存 入 符号 表 中 。 常 量 display 表示 在 局 部 帧 中 Display 
表 的 相对 地 址 ; 它 等 于 局 部 变量 的 数目 加 3， 因 为 在 局 部 帧 中 ， 局 部 变量 的 空间 分 配 在 Display 
表 之 前 。 当 这 一 指令 序列 后 面 跟着 一 条 Load 指令 时 ， 变 量 值 将 被 取出 并 用 于 表达 式 中 ; 相反 ， 
如 果 后 面 跟着 一 条 store 指令 ， 则 栈 中 恰好 在 偏 移 量 之 上 的 值 将 被 存 入 寻 址 得 到 的 变量 。 

为 被 调用 过 程 在 静态 链 上 的 “下 一 链接 ”设置 一 个 正确 的 指针 , 这 是 由 调用 者 负责 的 功能 ， 
我 们 称 此 指针 为 “ 父 指针 ”。 父 指针 指向 当前 正 被 调用 的 过 程 的 下 一 静态 外 层 的 帧 指针 。 如 果 
是 自身 的 递归 调用 ， 则 下 一 外 层 与 调用 者 的 下 一 外 层 相 同 ， 如果 是 调用 与 自身 位 于 同一 词法 层 
次 的 兄弟 过 程 ， 则 父 指针 与 调用 者 的 父 指针 相同 ， 如 果 当 前 正 被 调用 的 过 程 被 包含 ( 巍 套 ) 
在 调用 者 中 ， 则 父 指针 就 是 调用 者 自身 的 帧 指针 ;， 否则 ， 是 一 个 递归 的 调用 ,或 是 调用 沿 作 
用 域 链 向 上 一 层 或 多 层 的 “ 叔 伯 ”过 程 。 图 6-8 展示 了 几 次 过 程 调 用 〈 包 括 一 次 递归 调用 ) 
后 的 栈 。 

在 每 一 种 情况 下 ， 父 指针 都 根据 当前 的 Display 表 计 算 ， 并 在 调用 过 程 或 函数 之 前 压 入 栈 
中 。 调 用 一 个 过 程 的 指令 序列 是 : 











Zero { 为 返回 值 创建 空间 } 

< 如 果 有 参数 则 压 入 所 有 参数 > 

Zero { 计算 自身 的 帧 指针 的 值 ， } 
Global { Bl -(0 - FP) } 
Negate 

LoadCon «display + lexlevel>  ( 指向 Display 表 的 下 标 ) 
Load C 取 父 指针 的 偏 移 量 } 

Add { 将 父 指 针 留 在 栈 中 } 
LoadCon < 过 程 的 地 址 > 

Call ( 跳 转 到 该 过 程 } 


符号 表 中 过 程 名 字 的 词法 层次 可 用 于 检索 Display 表 以 取得 该 过 程 的 父 指针 的 正确 偏 移 
量 。 前 面 的 三 条 指令 将 当前 帧 指针 转换 为 栈 中 的 一 个 字 ， 这 些 代码 用 于 处 理 一 个 具有 返回 值 的 
函数 ， 在 调用 一 个 无 返回 值 的 过 程 时 ， 不 应 压 入 第 一 个 0。 

图 6-8 仅 以 图 形 方式 展示 ， 实 际 上 过 程 x 的 静态 链 有 一 个 不 那么 直观 的 值 -1， 这 是 其 父 过 
程 ( 即 主 程序 ) 的 帧 指针 。 全 局 变量 是 从 这 一 帧 开始 的 偏 移 量 ， 该 帧 由 主 程序 中 的 初始 ENTER 
指令 设置 为 比 当前 的 〈 初 始 的 ) 栈 指针 值 ( 即 OO 小 1。 还 应 留意 到 ， 在 单条 声明 语句 中 用 去 
号 分 隔 的 多 个 变量 将 以 逆序 分 配 到 栈 中 ， 这 是 递归 分 配方 案 (参阅 第 5 章 练习 1 (d) 和 (ed) 
的 自然 结果 。 


6.8 其 他 数据 类 型 


迄今 为 止 ， 我 们 仅 考 虑 了 变量 类 型 INTEGER 和 BOOLERAN， 每 一 类 型 占用 一 个 字 的 内 存 。 
通常 还 会 用 到 许多 其 他 类 型 ， 包 括 复杂 数据 类 型 。 标 准 Modula-2 语言 表示 了 其 中 的 大 多 数 类 
型 ， 因 而 我 们 基于 这 一 背景 讨论 此 课题 。 

除 INTEGER 和 BOOLEAN 类 型 外 ，Modula-2〈 以 及 Pascal) 语言 提供 了 三 种 另外 的 简单 数 
据 类 型 ，CHAR、 枚 举 类 型 和 REAL. BOOLEAN 类 型 是 枚 举 类 型 的 一 种 特例 ， 因 为 编译 程序 不 
必 显 式 地 引用 类 型 名 字 就 可 从 关系 表达 式 产生 BOOLEAN 类 型 的 值 , 条 件 表达 式 (IF. REPEAT 
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Al WHILE) 也 需要 BOOLEAN 类 型 的 值 ， 除 此 之 外 ，BOOLEAN 类 型 遵循 任何 枚 举 类 型 的 一 般 
规则 。 特 别 是 所 有 枚 举 类 型 均 由 常量 名 的 有 序列 表 组 成 ， 它 们 实际 上 是 常量 标识 符 ， 但 在 我 们 
限制 的 语言 中 强制 规定 了 BOOLEAN 类 型 中 的 常量 名 是 保留 字 。 

常量 名 通常 作为 常量 登记 到 符号 表 中 ， 链 接 到 符号 表 中 该 类 型 的 入 口 。 枚 举 类 型 的 常量 标 
识 符 被 赋值 为 从 0 开始 的 顺序 值 (正如 FALSE 为 0， 而 TRUE 为 1)， 代 码 生成 的 语义 将 它们 
作为 数值 常量 处 理 。 不 幸 的 是 ， 语 法 上 的 二 义 性 导致 无 法 区 分 常量 和 变量 标识 符 〈 即 同一 语法 
结构 “标识 符 ” 会 产生 不 同 的 代码 )， 这 限制 了 语法 制导 代码 生成 对 常量 标识 符 的 处 理 。 由 于 
这 一 原因 ，Itty Bitty Modula 语言 放弃 了 通用 的 枚 举 类 型 。 

标量 类 型 CHAR 不 存在 语法 二 义 性 问题 ， 其 实现 较为 直接 。CHAR 类 型 的 常量 在 语法 上 通 
过 括 上 引号 加 以 区 别 。 除 了 常量 的 值 等 于 ASCII 字符 编码 (或 适合 硬件 和 操作 系统 的 任何 其 他 
编码 ) 之 外 ， 为 实现 字符 常量 而 生成 的 代码 与 实现 数值 常量 的 代码 相同 。 除 非 通过 存储 在 符号 
表 中 的 类 型 码 ， 否 则 CHAR 类 型 的 变量 无 法 与 其 他 标量 类 型 的 变量 区 别 开 来 。 强 类 型 检查 要 求 
类 型 码 必 须 是 一 致 的 , 但 生成 的 代码 不 必 区 别 它们 ; “GR, 如 果 分 析 一 个 CHAR 类 型 的 操作 数 ， 
对 一 个 算术 运算 符 或 布尔 运算 符 的 类 型 检查 会 发 现 一 个 错误 。 

标量 类 型 的 子 界 问 题 稍微 复杂 一 些 。 子 界 类 型 的 变量 通常 分 配 了 与 其 基 类 型 一 样 完 整 的 内 
存 空间 ， 但 它们 必须 作为 一 个 子 界 类 型 登记 到 符号 表 中 ， 从 而 可 为 它们 生成 范围 检查 代码 。 然 
而 ， 类 型 检查 只 能 参考 它们 的 基 类 型 。 当 编译 程序 被 限制 为 严格 的 语法 制导 语义 时 〔 正 如 本 书 
迄今 为 止 的 做 法 )， 有 必要 将 每 一 标量 类 型 作为 子 界 类 型 登记 到 符号 表 中 ;， 基 类 型 只 是 其 子 界 
为 最 大 范围 的 类 型 。 编 译 程序 会 为 每 一 条 赋值 语句 生成 范围 检查 代码 ， 不 管 它 是 否 有 需要。 第 
9 章 将 介绍 可 消除 不 必要 的 范围 检查 代码 的 优化 方法 。 

标量 变量 通常 会 分 配 一 个 字 的 内 存 。 在 以 字 节 寻 址 的 机 器 中 ， 可 能 更 方便 的 做 法 是 为 枚 举 
和 字符 变量 以 及 范围 较 小 的 TNTEGER 分 配 单个 字 节 。 如 果 硬 件 对 更 大 单元 的 奇 地 址 有 限制 ， 
则 编译 程序 在 分 配 内 存 空 间 时 必须 小 心 处 理 必 要 的 对 齐 ， 即 插入 无 用 的 字 节 作 为 填充 符 。 由 于 
每 一 变量 均 属 于 一 个 指定 的 类 型 ,符号 表 中 的 类 型 入 口 除 其 他 东西 外 还 应 包含 该 类 型 的 一 个 变 
量 在 内 存 中 需 占用 多 少 字 或 多 少 字 节 的 信息 ， 可 能 还 有 一 个 标志 位 表示 是 否 有 必要 实现 字 的 对 
齐 。 通 常 认 为 字 对 齐 对 填充 到 一 个 或 多 个 字 中 的 任意 类 型 都 是 必要 的 ， 因 而 在 这 种 情况 下 标志 
位 可 以 省 略 ， 取 而 代 之 的 是 依靠 大 小 来 判断 是 否 有 字 对 齐 的 需求 。 

浮 点 变量 《大 多 数 语 言 中 的 REAL 类 型 ) 所 占 空间 通常 多 于 用 于 存储 整数 的 单个 字 ; 如 果 
情况 如 此 ， 它 们 会 自 始 自 终 地 占用 这 么 多 的 空间 。 除 重 载 了 算术 运算 符 的 情况 之 外 ，REAL 变 
量 可 看 作 一 种 特殊 的 不 透明 记录 ， 即 它们 占用 多 个 字 的 内 存 并 作为 一 个 整体 移动 ， 它们 有 自己 
的 语义 〈 为 浮 点 运算 生成 的 代码 很 少 与 整数 的 相同 )， 因 而 我 们 又 遇 到 二 义 的 语义 问题 。 由 于 
浮 点 类 型 表达 式 求 值 的 代码 生成 与 整数 的 类 似 ， 故 此 处 不 再 著述 。 


6.9 结构 化 数据 类 型 


兽 助 于 三 种 主要 的 数据 结构 ,程序 员 可 通过 适当 的 类 型 定义 构建 内 存 中 变化 无 穷 的 数据 组 
织 方式 。 在 现代 程序 设计 语言 中 ， 可 显 式 地 控制 对 每 一 结构 中 元 素 的 访问 ， 因 而 编译 访问 这 些 
结构 的 所 有 语义 都 可 以 是 语法 制导 的 。 这 三 种 结构 分 别 是 ， 数组、 记录 和 和 指针。 它们 可 以 混合 
和 贬 套 至 任意 深度 ， 但 一 个 属性 文法 的 改进 PDA 通过 匹配 符号 表 中 的 声明 ， 可 轻易 走出 访问 
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运算 符 的 迷宫 。 

为 分 析 所 谓 的 LL 表达 式 , 通常 最 实用 的 办 法 是 在 文法 中 为 它 定 义 单个 非 终结 符 。 一 条 工 表 
达 式 表达 的 语义 是 访问 一 条 赋值 语句 左边 〈L 表达 式 中 的 “L” 表 示 Left) 的 变量 ， 可 看 作 一 
个 返回 变量 地 址 的 内 联 函 数 。 在 Itty Bitty 栈 机 器 中 ，L 表达 式 表 示 了 访问 一 个 变量 时 所 需 的 所 
有 代码 ， 最 后 的 Load 或 Save 指令 除外 。 仅 考虑 三 种 主要 结构 以 及 原始 变量 类 型 ( 仅 占 1 个 
字 )，L 表达 式 的 语法 如 下 : 

Lexpn > ID ( "^" | "." IDI"[" Expn "]" ) 

由 此 可 见 ， 一 条 工 表 达 式 由 一 个 标识 符 接着 任意 数目 、 任 意 次 序 的 结构 访问 运算 符 组 成 。 
这 三 种 结构 访问 运算 符 分 别 是 指针 析 取 、 记 录 字 段 引用 以 及 数组 下 标 。 由 于 它们 是 独立 的 ， 且 
每 一 运算 符 均 生成 语法 制导 的 代码 ， 故 可 分 别处 理 这 三 个 运算 符 。 
6.9.1 指针 类 型 

最 简单 的 结构 化 数据 类 型 是 指针 类 型 。 直 观 地 看 ， 指 针 是 一 个 巨型 数组 〈 即 全 部 内 存 ， 或 
至 少 是 用 于 分 配 动态 变量 的 整个 堆 ) 的 下 标 。 尽 管内 存 中 的 指针 相当 于 一 个 大 整数 (在 IBSM 
中 占 1 个 字 )， 指 针 类 型 有 别 于 它 所 指向 的 类 型 。 然 而 ， 在 符号 表 中 必须 有 从 指针 类 型 到 其 基 
类 型 的 链接 ， 图 6-9 展示 了 一 种 可 能 的 实现 。 


TYPE 

Ptr - POINTER TO Integer; 
VAR 

Link: Ptr; 

Number: Integer; 


Integer 





图 6-9 符号 表 中 的 指针 类 型 


L 表达 式 中 ,指针 的 语义 相对 较为 容易 。 每 次 析 取 一 个 指针 《 即 每 次 出 现 析 取 运算 符 “^”) 
时 ， 当 前 类 型 也 必须 被 析 取 。 在 图 6-9 中 ， 对 标识 符 Link 的 引用 属于 Ptr RA, 但 Link^ 
的 引用 却 属于 Integer 类 型 。 对 于 指向 指针 的 嵌 套 指针 ， 可 根据 蔡 套 链 的 长 度 作 相应 次 数 的 
析 取 ， 也 可 根据 声明 插入 另外 的 结构 运算 符 ; 每 次 析 取 时 ， 均 须 检 查 正 在 析 取 的 类 型 必须 是 指 
针 ， 然 后 将 新 的 待 处 理工 表达 式 的 类 型 设置 为 析 取 后 的 类 型 。 

析 取 一 个 指针 的 代码 也 较为 简单 ， 每 一 析 取 运算 符 增 加 了 一 次 从 全 局 内 存 中 取 数 据 。 在 
IBSM 中 ， 内 存 引用 相对 于 帧 指针 是 局 部 的 ， 而 Global 指令 可 将 它 转 换 为 全 局 的 。 因 而 ， 析 
取 运 算 符 在 LL 表达 式 中 恰好 生成 两 条 指令 : 

(LoadCon a) ( 取 指 针 a 的 地 址 o 


1 Load { 析 取 指针 } 
2 Global { 将 局 部 地 址 转换 为 全 局 地 址 } 
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(Load) ( 取出 变量 } 

6.9.2 ”记录 结构 

记录 结构 类 似 一 个 缩小 的 帧 。 声 明 一 个 记录 时 ， 必 须 在 符号 表 中 创建 一 个 新 的 作用 域 ， 并 
将 记录 中 的 字段 登记 为 这 一 私有 作用 域 中 的 标识 符 。 每 一 字段 均 被 标注 为 字段 类 别 ， 而 所 有 其 
他 的 语义 则 与 局 部 变量 的 声明 相同 。 更 具体 地 说 ， 一 个 局 部 变量 的 偏 移 量 指 的 是 该 变量 在 局 部 
变量 帧 中 的 位 置 ， 而 一 个 字段 的 偏 移 量 则 是 指 该 字段 相对 于 记录 的 位 置 。 因 而 ， 记 录 中 第 一 个 
字段 的 偏 移 量 为 0， 第 二 个 字段 的 偏 移 量 等 于 第 一 个 字段 的 大 小 ， 如 此 类 推 。 一 个 记录 类 型 的 
对 象 的 大 小 是 所 有 字段 大 小 的 总 和 ， 这 一 个 合计 大 小 应 与 记录 的 定义 一 起 保存 在 符号 表 中 。 

在 记录 声明 的 最 后 将 关闭 作用 域 ， 并 且 将 整个 记录 声明 保存 到 某 一 位 置 ， 要 么 是 符号 表 中 
某 一 不 可 访问 的 部 分 ， 要 么 是 符号 表 之 外 的 某 个 地 方 。 当 一 条 上 世 表达 式 通过 句号 运算 符 访问 一 
个 记录 的 字段 时 ， 已 保存 的 作用 域 被 打开 ， 并 且 字 段 名 的 符号 表 查 找 被 定向 到 那个 重新 打开 的 
作用 域 ， 而 不 是 整个 可 见 的 符号 表 。 当 然 ， 到 目前 为 止 被 分 析 的 工 表 达 式 的 类 型 必须 是 记录 ， 
并 且 符 号 表 中 的 记录 类 型 必须 链接 到 已 保存 的 字段 列表 。 在 所 有 其 他 的 方面 ， 记 录 字 段 的 类 型 
检查 语义 处 理 与 变量 标识 符 的 处 理 相 同 。 分 析 一 个 字段 名 时 ， 其 类 型 (从 符号 表 中 的 字段 声明 
TAD RAHAL 表达 式 的 待 处 理 类 型 。 

在 IBSM 中 ， 为 一 个 记录 字段 的 引用 生成 的 代码 又 恰好 是 两 条 指令 。 第 一 条 指令 装 入 一 个 
常量 ， 即 该 字段 在 记录 中 的 偏 移 量 ， 第 二 条 指令 将 它 累 加 到 正在 处 理 的 工 表达 式 的 地 址 : 


(LoadCon a) ( 取 记 录 的 地 址 a } 

工 LoadCon «offset» ( 取 字 段 的 偏 移 量 } 

2 Add { 将 它 累 加 到 记录 的 地 址 } 
(Load) ( 取出 变量 ) 


在 基于 寄存 器 寻 址 的 传统 计算 机 上 ， 只 要 将 偏 移 量 累加 到 用 于 访问 变量 的 寄存 器 即 可 访问 
记录 的 字段 。 这 将 运行 时 的 加 法 转换 为 编译 时 的 加 法 ， 本 质 上 是 一 种 代码 优化 。 第 8 章 讨 论 代 
码 优化 时 将 看 到 ， 类 似 的 优化 也 可 用 于 IBSM 代码 。 

6.9.3 ”数组 的 语义 

数组 比 指针 和 记录 稍 复杂 一 些 。 一 个 数组 是 内 存 中 的 分 量 的 线性 序列 ， 通 过 下 标 类 型 进行 
编号 。 因 而 ， 一 个 数组 的 定义 必须 指定 两 个 子 类 型 ; 下 标 类 型 和 分 量 类 型 。 下 标 类 型 必须 是 一 
个 标量 类 型 〈 整 数 、 布 尔 值 、 字 符 、 任 意 枚 举 类 型 ， 或 它们 之 中 的 子 界 类 型 )， 而 分 量 类 型 则 
可 以 是 任意 类 型 。 一 个 数组 定义 的 符号 表 入 口 必 须 同时 链接 到 这 两 个 类 型 。 下 标 类 型 必须 指定 
数组 的 下 界 以 及 元 素 的 个 数 〔 或 以 等 价 的 方式 指定 其 上 、 下 界 ); 所 有 标量 类 型 都 必须 包括 这 
些 上 界 和 下 界 , 从 而 可 实现 某 种 方式 的 范围 检查 。 分 量 类 型 必须 指定 该 类 型 中 一 个 对 象 的 大 小 ; 
其 实 以 任 一 类 型 声明 的 变量 都 毫 无 例外 地 有 这 一 要 求 。 在 所 定义 的 数组 类 型 中 ， 一 个 对 象 的 大 
小 是 下 标 类 型 中 的 元 素 个 数 与 分 量 类 型 大 小 的 乘积 。 

数组 引用 的 类 型 检查 较为 简单 ， 只 要 保证 正在 处 理 的 L 表达 式 是 一 个 数组 类 型 ， 并 检查 下 
标 表达 式 属于 与 数组 声明 的 下 标 类 型 相同 的 类 型 即 可 。 数组 的 分 量 类 型 成 为 正在 处 理 的 工 表达 
式 的 新 类 型 。 
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为 数组 元 素 的 引用 而 生成 的 代码 依赖 于 符号 表 中 存储 在 数组 定义 中 的 全 部 语义 信息 。 正 在 
处 理 的 L 表达 式 求 值 已 经 计算 出 该 数组 的 地 址 ， 这 一 地 址 与 数组 第 一 个 元 素 的 地 址 相同 。 计 算 
一 个 简单 的 下 标 操作 alk] 需要 十 几 条 不 同 的 机 器 运算 。 如 果 我 们 先 将 下 标 表达 式 转换 为 等 价 
的 伪 码 ， 将 更 容易 理解 这 些 问题 。 给 定 如 下 定义 的 数组 : 


VAR 
a: ARRAY [lo .. hi] OF whatever; 


afk] 


我 们 必须 先 对 下 标 表 达 式 k RE, DAPeHUCABLU AE k 个 元 素 。 由 于 数组 下 标 以 常量 lo 为 
基数 〈 它 可 能 不 是 0)， 故 必须 从 计算 得 到 的 值 中 减 去 这 一 基数 ， 从 页 将 第 e 个 元 素 的 偏 移 
量规 范 化。 然后 ， 一 个 类 型 安全 的 编译 程序 还 将 校 验 下 标的 范围 ， 它 既 不 可 小 于 lo, ERT 
大 于 hi。 如 果 存 储 在 符号 表 中 的 下 标 范围 表现 为 一 个 基数 和 元 素 的 个 数 ， 则 在 减 去 基数 后 再 
执行 这 一 测试 会 更 高 效 。 最 后 ， 用 分 量 类 型 大 小 〈 以 可 寻 址 的 字 或 字 节 数 计算 ， 这 取决 于 特定 
的 硬件 ) 乘 以 规范 化 的 下 标 ， 从 而 确定 该 元 素 的 物理 偏 移 量 。 这 一 计算 过 程 看 起 来 类 似 如 下 的 
类 Modula-2 443: 


PROCEDURE SubscriptCalc(A: ADDRESS; k, lo, nelts, eltsize: INTEGER): ADDRESS; 
VAR 
temp: INTEGER; 
BEGIN 
temp := k - lo; 
IF temp < 0 THEN 
Error 
ELSIF temp >= nelts THEN 
Error 
ELSE 
RETURN A + (temp * eltsize) 
END 
END SubscriptCalc; 


相同 操作 的 抽象 IBSM 代码 形 如 ; 
(LoadCon a) { 取 数 组 的 地 址 a } 
<Expn> { 对 下 标 表达 式 进行 求 值 } 


LoadCon <lobound> { 减 去 下 界 } 
Negate 


Dupe { 为 范围 检查 准备 2 个 副本 } 
Zero { 保证 它 既 不 会 小 于 0， 3 


9 Swap 

10 LoadCon <numelements> { 也 不 会 大 于 元 素 个 数 } 
11 Greater 

12 Or { 如 果 其 中 一 个 为 真 ， } 
13 LoadCon 1 

14 BranchFalse 
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15 Stop { 遇 到 错误 则 停机 3 

16 LoadCon «componentsize» { 计算 偏 移 量 } 

17 Multiply 

18 Add { 累加 到 数组 的 地 址 } 
(Load) ( 取出 分 量 } 


为 一 个 指定 元 素 寻 址 的 代码 必须 添加 到 下 标的 语法 中 。 第 一 步 (第 1 行 ) 是 对 下 标 表达 式 
进行 求 值 。 由 于 在 Modula-2 和 Pascal 语言 中 , 数组 元 素 可 从 任意 下 标 值 开始 ， 所 以 下 一 步 (第 
2~4 行 ) 用 于 减 去 数组 第 一 维 下 标的 下 界 。 对 于 一 个 声明 为 [3 .. 9] 的 数组 而 言 ， 一 个 计算 
结果 为 6 的 下 标 值 必须 访问 数组 中 的 第 4 个 元 素 ， 而 不 是 第 6 个 元 素 。C 语言 强制 规定 所 有 下 
标 范围 的 下 界 均 为 0， 因 而 无 需 这 一 步骤 。 使 用 简单 的 常量 表达 式 求 值 优化 技术 ， 即 可 将 这 一 
步骤 转移 到 编译 时 执行 ， 从 而 它 不 会 成 为 运行 时 的 负担 。 应 根据 数组 中 的 元 素 个 数 对 偏 移 量 下 
标 表达 式 执 行 范围 检查 〈 第 5~15 行 )， 又 或 者 参照 下 标 标量 类 型 的 上 界 GER) 对 原 下 标 
表达 式 进行 范围 检查 。 接 着 必须 乘 以 分 量 的 大 小 ， 从 而 得 到 该 下 标 所 确定 的 分 量 的 偏 移 量 (第 
16~17 行 )。 最 后 ， 偏 移 量 累加 到 正在 处 理 的 工 表 达 式 的 值 〈 第 18 行 )， 并 派生 出 一 个 新 的 待 
处 理工 表达 式 。 

一 个 多 维 数组 等 价 于 多 个 数组 的 一 维 数组 ， 实 际 上 ， 在 Modula-2 语言 中 显 式 地 将 一 个 多 
维 数组 表达 成 这 样 。 如 果 在 语言 定义 中 二 维 数组 和 一 个 数组 的 数组 互 不 相同 ， 则 符号 表 中 的 定 
义 可 添加 一 个 标志 位 表示 它 属 于 哪 一 种 ， 否 则 ， 下 标 表 达 式 中 的 逗号 可 当 作 “] [” 一 样 处 理 其 
语义 ， 类 型 指示 符 中 的 逗号 可 当 作 单词 “OF ARRAY” 一 样 处 理 。 


6.10 ”其 他 数据 结构 


大 多 数 其 他 的 数据 结构 都 是 上 述 三 种 基本 方案 的 变形 。Pascal 语言 有 一 个 文件 类 型 (但 
Modula-2 语言 中 没有 )， 然 而 其 语法 和 语义 均 与 指针 类 型 相同 。 一 个 文件 变量 可 能 比 一 个 普通 
指针 略 大 ， 从 而 隐藏 的 字段 可 引用 适当 的 操作 系统 钩子 函数 以 实现 读 写 ， 并 且 还 可 能 提供 了 数 
据 的 缓冲 。 

Modula-2 语言 允许 声明 PROCEDURE 类 型 的 变量 。 一 个 过 程 变量 可 被 赋值 ， 可 作为 参数 传 
递 给 另 一 过 程 ， 也 可 直接 将 它 应 用 到 一 个 参数 表 以 调用 它 。 过 程 变量 必须 足够 大 ， 才 足以 保存 
过 程 入 口 点 的 地 址 以 及 它 的 当前 父 帧 指针 。 由 于 Modula-2 语言 仅 允 许 将 外 层 过 程 赋值 给 变量 
或 作为 参数 传递 ， 所 以 帧 指针 是 不 必要 的 : 它 始 终 采 用 全 局 的 帧 指针 。 其 他 语言 可 能 要 求 一 个 
过 程 变量 同时 携带 帧 指针 信息 ; 在 这 种 情况 下 ， 如 果 一 个 帧 尚 有 未 关闭 的 引用 ， 则 该 帧 不 可 以 
被 回收 空间 。 通 常 认为 管理 这 种 状况 会 因 过 于 复杂 而 得 不 偿 失 。 

Modula-2 和 Pascal 语言 均 支 持 集合 类 型 set， 并 实现 为 一 种 布尔 值 的 压缩 数组 。 大 多 数 计 
算 机 硬件 都 提供 了 指令 实现 单个 字 的 交集 与 并 集 (ana 和 Or)。 如 果 人 允许 集合 类 型 大 于 Modula-2 
语言 中 占 1 个 字 的 BitSet 类 型 , 那么 编译 程序 设计 人 员 就 必须 设计 合适 的 编程 方法 以 实现 多 
个 字 的 逻辑 运算 。 由 于 这 一 工作 除了 有 助 于 正在 讨论 的 数据 结构 之 外 ， 对 领悟 编译 程序 的 设计 
没有 什么 特别 启示 ， 并 且 在 Modula-2 和 Pascal 源 程序 中 集合 运算 符 通过 重 载 算术 运算 符 “*” 
和 和 “4” 表示 《导致 不 可 能 采用 语法 制导 代码 生成 技术 )， 故 本 书 不 再 袭 述 这 些 内 容 。 
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6.11 Itty Bitty 栈 机 器 的 输入 和 输出 


作为 一 种 教学 装置 ，Itty Bitty 栈 机 器 没有 输入 和 输出 方面 的 需求 ， 因 为 已 可 通过 检查 程序 
执行 的 踪迹 来 校 验 小 型 测试 程序 的 正确 运行 。 然 而 这 对 于 大 一 些 的 程序 却 会 造成 不 便 。 

真正 的 计算 机 通常 按 以 下 两 种 方式 之 一 处 理 输 入 和 输出 一 些 计算 机 有 专门 的 VO (输入 
和 输出 地 址 空间 ， 并 有 专门 的 指令 将 数据 传送 到 其 中 ， 另 一 些 计算 机 没有 专门 的 IO SE, 
但 指派 了 一 部 分 主 存 空间 作为 VO 硬件 传送 的 寄存 器 ， 称 之 为 内 存 映 射 WO。 当 然 ， 只 要 设计 
人 员 愿 意 选 用 ， 任 何 计 算 机 都 可 使 用 内 存 映 射 XO， 包括 那些 使 用 IO 指令 的 计算 机 。 

IBSM 被 设计 为 模拟 内 存 映射 WO， 在 所 模拟 的 内 存 地 址 空间 之 外 ， 物 理 内 存 地 址 -1 是 一 
个 单字 符 的 WO 端口 。 存 入 该 位 置 的 数字 将 被 转换 为 单个 字符 ， 然 后 被 传送 到 控制 台 终 端 或 标 
准 输出 ;将 该 地 址 中 的 数据 取 到 栈 中 相当 于 从 终端 键盘 或 标准 输入 文件 中 读 入 单个 字符 ， 并 将 
其 序数 压 入 IBSM 的 运行 栈 中 。 

与 大 多 数 计算 机 一 样 ， 将 多 个 整数 转换 为 字符 串 需 要 一 个 库 过 程 。 但 这 并 非 本 章 的 重点 ， 
这 一 过 程 的 实现 留 作 练习 。 


6.12 ”语法 制导 语义 的 局 限 


本 章 已 数 次 遭遇 “语法 制导 语义 能 够 做 什么 ”这 一 问题 。 第 5 章 深 入 讨论 了 如 何 基于 符号 
表 中 存储 的 标识 符 相 关 信 息 实 现 类 型 检查 ， 采 用 这 种 方式 能 够 处 理 两 类 语义 信息 。 首 先 ， 须 根 
据 语 法 形式 进行 校 验 的 所 有 信息 必须 组 织 为 一 种 独立 于 标识 符 语义 类 别 的 形式 ， 因 而 ， 我 们 为 
所 有 标识 符 都 利用 个 位 数 存储 了 其 “类 型 ”信息 ， 而 不 管 这 些 标识 符 到底 是 变量 、 类 型 还 是 函 
数 。 类 似 地 ， 对 所 有 标识 符 也 将 其 “类 别 ” 信 息 记录 在 十 位 数 中 。 

在 符号 表 中 ， 语 法 制导 语义 可 处 理 的 第 二 类 信息 片段 特定 于 某 些 标识 符 类 别 ， 但 仅 限 于 可 
在 语法 上 惟一 确定 其 类 别 的 标识 符 。 类 型 名 字 可 在 语法 上 确定 ， 臂 如 出 现在 TvPE 语句 中 ， 或 
. 者 出 现在 VAR 和 函数 声明 中 的 冒号 右边 ， 这 些 位 置 中 出 现 的 任何 标识 符 必定 是 一 个 类 型 名 字 。 
采用 类 似 方法 ， 可 从 语法 上 识别 一 个 变量 名 字 ， 壁 如 出 现在 赋值 语句 的 左边 ， 或 者 出 现在 表达 
式 中 但 后 面 没有 跟着 圆 括 号 。 

不 幸 的 是 在 实际 程序 设计 语言 中 ， 标 识 符 可 不 带 圆 括号 出 现在 表达 式 中 ， 但 它们 并 不 是 变 
量 ; 它们 可 以 是 已 声明 的 常量 ， 在 Pascal 语言 中 它们 还 可 以 是 函数 调用 (但 Modula-2 并 非 如 
此 )。 在 Modula-2 语言 中 ， 不 带 圆 括 号 出 现在 表达 式 中 的 函数 名 字 是 一 个 常量 (其 类 型 为 
PROCEDURE)， 因 而 在 形式 上 无 法 与 其 他 常量 区 别 开 来 。 

利用 一 个 属性 文法 的 语法 制导 语义 , 在 处 理 变 量 的 同时 对 常量 和 函数 调用 (Pascal 语言 中 ) 
执行 充分 的 类 型 检查 并 不 困难 ， 如 前 所 述 ， 这 只 要 求 所 有 类 别 的 标识 符 的 类 型 信息 必须 得 一 致 
地 放置 在 符号 表 的 值 记录 中 即 可 。 然 而 在 代码 生成 的 情况 下 ， 这 种 一 致 性 不 复 存 在 。 在 IBSM 
模型 的 体系 结构 中 ， 一 个 局 部 变量 需要 生成 3 个 字 的 代码 ; 一 条 noadcon 指令 装 入 变量 地 址 ， 
跟着 一 条 Load 指令 取出 该 变量 的 值 ， 而 常量 只 需要 生成 一 条 Load 指令 装 入 该 常量 的 值 。 如 
果 没 有 语法 上 的 区 别 可 驱动 对 语义 的 不 同 处 理 ， 就 无 法 正确 地 生成 两 种 不 同类 别 的 代码 。 

如 果 我 们 允许 非 局 部 变量 ， 即 使 在 变量 之 中 也 会 冒 出 类 似 的 问题 。 利 用 3 个 字 的 简单 指令 
序列 即 可 访问 一 个 局 部 变量 ， 但 一 个 非 局 部 变量 则 需要 更 多 或 更 少 的 代码 ， 取 决 于 该 变量 的 由 
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离 得 多 远 。 我 们 回避 这 一 问题 的 办 法 是 强制 所 有 的 变量 引用 都 必须 通过 Display 表 ， 以 牺牲 一 
些 代码 效率 为 代价 。 这 特别 值得 注意 ， 因 为 大 多 数 过 程 仅 访问 局 部 变量 ， 而 我 们 却 强制 所 有 过 
程 都 要 构建 一 个 高 成 本 的 Display 表 ， 并 通过 它 传 递 所 有 的 变量 引用 。 第 8 章 将 讨论 在 一 -个 属 
性 文法 中 如 何 设计 语义 制导 代码 生成 的 方法 。 


6.13 手工 编写 编译 程序 的 代码 生成 


正如 第 5 章 所 述 ,“ 一 遍 ” 递 归 下 降 分 析 程序 在 结构 上 与 属性 文法 稍 有 区 别 。 在 一 个 输出 
文件 中 产生 输出 代码 的 字符 串 〈 用 方 括号 中 带 引 号 的 字符 串 表 示 ) 只 不 过 是 在 Modula-2 语言 
的 代码 中 适当 地 调用 writeString WE (Pascal 语言 中 的 write) 而 已 。 内 置 属性 求 值 函数 
number 和 newline 很 容易 对 应 到 标准 过 程 WriteInt 和 WriteLn(Pascal 语言 中 的 write 
和 writela)。 如 果 代 码 被 缓存 在 一 个 数组 的 数据 结构 中 ， 地 址 就 对 应 到 数组 的 下 标 ， 代 码 只 
不 过 是 被 赋值 给 合适 的 元 素 。 

如 果 目 标 机 器 具有 比 IBSM 更 复杂 的 指令 集 ， 则 可 利用 大 多 数 语 言 支持 的 位 移 库 例 程 将 指 
令 字 中 的 分 量 字段 组 合 在 一 起 ， 或 者 像 本 书 之 前 压缩 符号 表 的 值 那 样 利用 乘法 和 加 法 。 


6.14 ”语法 制导 语义 的 应 用 


编译 程序 的 设计 原则 可 直接 应 用 于 与 形式 化 定义 的 语言 有 关 的 各 种 各 样 的 编程 任务 。 大 多 
数 程 序 要 求 在 执行 动作 之 前 ， 先 检查 用 户 输入 在 语法 以 及 语义 上 的 一 致 性 。 一 致 性 检查 相当 于 
一 个 编译 程序 或 解释 程序 的 前 端 ， 执 行动 作 则 相当 于 后 端 。 

本 节 分 析 两 个 不 同 的 应 用 ， 展示 了 语法 制导 的 语义 如 何 使 得 这 类 应 用 更 易于 实现 。 其 中 的 
一 个 应 用 是 程序 设计 语言 的 解释 程序 ， 它 在 大 多 数 方面 类 似 于 一 个 编译 程序 ， 只 是 其 后 端的 语 
义 动 作 是 立即 运行 程序 ， 而 不 是 生成 代码 以 后 再 运行 。 另 一 个 应 用 是 一 个 美化 打印 工具 ， 它 根 
据 语法 驱动 的 提示 信息 决定 换行 和 缩 进 的 位 置 。 
6.14.1 Tiny BASIC 解释 程序 

为 演示 一 个 程序 设计 语言 解释 程序 的 基本 性 质 ， 我 们 关注 一 个 没有 静态 语义 的 语言 ， 只 有 
整数 的 Tiny BASIC 语言 。Tiny BASIC 在 早期 的 微机 上 较为 流行 , 它 有 7 种 语句 类 型 和 26 个 预 
声明 的 变量 《每 个 变量 用 一 个 字母 表示 )。 代 码 清单 6.4 给 出 的 文法 略 有 简化 。 


代码 清单 6.4 Tiny BASIC 语言 的 语法 文法 ， 包 括 非 形式 化 的 语义 动作 








Comd 


-> Stmt (HA TI | 
-> NUM textLine [以 行 号 次 序 插入 内 存 中 ] 
-> NUM [从 内 存 中 删除 该 编号 指定 的 行 ] 
-> "CLEAR" [从 内 存 中 清除 程序 ] 
-> "RUN" [在 内 存 中 找到 第 一 行 ， 并 开始 执行 ] 
Stmt 
-> "LET" VAR "=" Expn [从 表达 式 栈 中 弹出 ， 并 存放 到 变量 中 ] 
-> "IF" Expn ("=" | "<" | ">") Expn "THEN" Stmt 
[弹出 两 个 值 并 作 比 较 ， 仅 当 为 真 时 执行 该 语句 ] 
-> "GOTO" Expn [从 表达 式 栈 中 弹出 一 个 值 ， 从 该 值 表示 的 行 继续 执行 ] 


-> "INPUT" VAR [从 终端 接受 一 个 数字 ， 并 存 入 变量 中 ] 
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-> "PRINT" Expn [弹出 表达 式 ， 并 在 终端 上 显示 ] 

-> [ 空 语句 ， 什 么 也 不 做 ] 
Expn 

-> Term (("«" | "-") Term [弹出 两 个 值 ， 执 行 加 法 或 减法 ， 将 结果 压 入 栈 中 ] )* 
Term 


-> Fact (("*" | "/") Fact [弹出 两 个 值 ， 执 行 乘法 或 除法 ， 将 结果 压 入 栈 中 ] )* 


Fact 
-» VAR [将 变量 的 值 压 入 栈 中 ] 
-> NUM [将 数字 的 值 压 入 栈 中 ] 
-> "(" Expn ")" 





实现 该 解释 程序 最 困难 的 部 分 是 在 内 存 中 维护 程序 代码 。 一 种 简单 的 实现 是 使 用 一 个 定 长 
字符 串 的 数组 ， 以 行 号 作为 下 标 。 在 程序 启动 时 ， 或 执行 一 条 CLEAR 命令 之 后 ， 所 有 字符 串 
均 为 室 〈 有 人 欠 优雅 的 做 法 是 用 空格 填充 这 些 字符 串 )。 如 果 用 户 输入 一 个 行 号 ， 则 以 输入 行 中 
余下 的 所 有 内 容 填 充 该 行 号 指定 的 行 。 最 早 的 微机 版 Tiny BASIC 实现 只 有 非常 有 限 的 内 存 : 
一 些 甚 至 运行 在 只 有 2,048 字 节 这 人 么 少 的 内 存 中 ， 包 括 解释 程序 、BASIC 程序 以 及 所 有 的 数据 
空间 .BASIC 程序 存储 在 一 个 字符 数组 中 , 同时 存储 的 还 有 单独 以 双 字 节 二 进 制 数 编码 的 行 号 。 
在 Modula-2 语言 的 实现 中 ， 一 种 合理 的 折 中 方案 可 能 引入 一 个 按 行 号 次 序 维护 的 、 按 行 存放 
的 数组 ， 在 这 个 按 行 存放 的 数组 中 ， 每 一 入 口 可 包含 一 个 行 号 和 一 个 指向 字符 数组 的 索引 。 这 
里 不 需要 长 度 信息 ， 因 为 任 一 行 的 长 度 正 是 该 行 的 起 始 索引 与 下 一 行 的 起 始 索 引 之 差 。 

借助 于 运行 时 的 表达 式 栈 ， 表 达 式 求 值 相当 简单 。 每 次 引用 一 个 变量 或 常量 时 ， 将 该 变量 
或 常量 的 值 压 入 栈 中 。 每 一 运算 符 从 栈 中 弹出 其 操作 数 ， 然 后 执行 这 两 个 值 的 运算 ， 最 后 将 运 
算 结果 压 入 栈 中 。IF 语句 先 对 比较 运算 进行 求 值 ， 然 后 车 结果 为 假 则 跳 过 语句 的 其 余部 分 。 
GOTO 语句 对 一 个 表达 式 进行 求 值 ， 然 后 找 出 行 号 与 求 值 结果 相同 的 那 一 行 ( 如 果 该 行 不 存在 
则 报告 一 个 错误 )， 然 后 从 这 一 行 开始 继续 执行 。 这 些 实现 留 作 练 习 。 

6.14.2 Micro-Modula 美化 打印 工具 

尽管 本 例 仅 展示 了 将 缩 进 后 的 代码 清单 输出 为 文本 文件 ， 但 美化 打印 工具 的 另 一 常见 用 法 
是 一 个 语法 制导 的 文本 编辑 程序 ， 其 中 语言 的 文法 控制 着 屏幕 的 显示 。 人 允许 动态 重 构 数 据 项 的 
显示 方式 会 引入 太 多 的 复杂 性 ， 已 超出 我 们 在 这 里 的 分 析 范 围 。 同 样 道理 ， 我 们 仅 探讨 几 个 控 
制 结 构 ， 每 一 控制 结构 都 展示 了 格式 化 过 程 中 的 不 同 特点 。 代 码 清单 6.5 是 这 :美化 打印 工具 
的 属性 文法 的 核心 部 分 。 

代码 清单 6.5 — Micro-Modula 语言 源 程序 的 美化 打印 
declns lindent 
-> "PROCEDURE" ID Tname ";" 

newline lindent ["PROCEDURE "; spell Jname; ";"] 
(declns lindent41)* 
"BEGIN" 

newline lindent ["BEGIN"] 
(stmts lindent«1)* 


"END" ID Tname "i" 
newline lindent ["END "; spell iname; wpm] 


EXEMPLE T R 


-> "VAR" ID Tname 
typeden lindent 


stmts lindent 


一 > "Ip" 


expn lindent4i 


"THEN" 


(stmts lindent41)* 


( "ELSE" 


(stmts Jindent+1)* 


)? 
"END" 
( " ; " 


stmts lindent 


)? 


一 > ID fname 
expn lindent«1 


(";" 


stmts lindent 


)? 


r 


expn lindent 


-> factor Jindent+1 
(operator 
factor Jindent+1 


)* ; 


factor Jindent 


一 > ID Tname 


一 > NUM Tvalue 


-> " (* 


expn Vindent+1 


") " 


; 
operator 


一 > "uu 
"kw 


ng" 


’ 


newline lindent 


newline lindent 
[":"] 


newline lindent 
[ " THEN" 1 
newline lindent 


newline lindent 
[";"] 


newline lindent 


[";"] 


[spell name] 
[number value] 
[" ("] 


[")"] 


["+"] 
["*"] 
["2"] 


["<"] 


['VAR "; spell lname; ":"] 


["IF "] 


["ELSE"] 


[ "END" ] 


[spell iname; n 


{ 开始 新 的 一 行 ， 然 后 输出 空格 } 
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一 > [startline] 
space lindent ; 


space lindent ( 车 indent 为 0 则 无 空格 } 


-> [indent > 0; " "] 
space lindent-1 


-> [indent = 0] 


; 


代码 清单 6.5 中 的 文法 未 给 出 表达 式 中 运算 符 的 优先 级 ， 因 为 这 些 语 义 动作 只 是 关心 在 某 
一 位 置 有 一 个 运算 符 ， 而 不 关心 它 是 一 个 什么 运算 符 。 该 文法 也 没有 涉及 一 行 的 长 度 。 一 个 更 
完善 的 美化 打印 工具 会 携带 一 个 从 左 到 右 传递 的 属性 ， 用 于 记录 当前 行 的 剩余 空位 ， 如 果 表 示 
缩 进 值 的 继承 属性 小 于 某 一 阔 值 ， 则 以 适当 的 缩 进 〈 向 前 进 1 步 或 2 步 ) 开始 一 个 新 行 ， 否 则 
当下 一 单词 在 当前 行 没 有 足够 的 空位 时 ， 跳 回 到 左边 界 附近 。 

该 文法 最 后 的 产生 式 引 入 一 个 约束 ， 这 一 约束 在 它 的 第 一 条 产生 式 不 一 定 为 真 ， 即 指定 的 
缩 进 值 要 么 是 0 作为 递归 的 基数 时 )， 要 么 大 于 0〈 从 左边 界 起 填充 空格 时 )。 支 持 这 一 决策 
的 代码 相当 于 在 普通 LL(1) 文 法 中 测试 一 个 向 前 看 符号 ， 但 在 这 种 情况 下 ， 非 终结 符 包 含 一 个 
产生 空 串 的 选项 。 第 8 章 将 深入 探讨 这 类 语义 驱动 决策 的 概念 。 


对 源 程序 文本 的 编译 就 是 将 它 翻译 为 某 一 目标 机 器 上 的 机 器 语言 , 这 一 机 器 语 育 程 序 称 为 目标 代码 。 
一 种 翻译 方法 是 在 源 语言 文法 的 重 写 规则 中 定义 代码 生成 序列 ， 该 技术 称 为 语法 制导 代码 生成 。 当 应 用 
一 条 重 写 规则 时 ， 编 译 程序 调用 相应 的 代码 生成 例 程 ， 从 而 创建 目标 代码 。 使 用 属性 文法 有 可 能 生成 部 
分 依赖 于 语义 信息 的 目标 代码 。 

本 章 介 绍 了 一 个 虚构 的 计算 机 IBSM (Itty Bitty 栈 机 器 ) 用 于 演示 代码 生成 。 为 演示 这 些 技术 ， 我 们 
为 第 5 章 介 绍 的 Micro-Modula 语言 的 文法 (参阅 代码 清单 5.2) 扩展 了 新 的 代码 生成 语义 。 


accumulator〈 累 加 器 ) 一 个 寄存 器 ， 用 于 存储 算术 运算 或 逻辑 运算 的 数据 。 
backpatching (回填 ) ”在 一 个 编译 程序 中 ， 在 编译 的 时 候 保存 每 一 不 完整 的 向 前 分 支 记录 ， 当 目标 地 
址 变 为 已 知 时 ， 回 到 已 生成 的 输出 代码 ， 并 将 正确 的 值 插入 分 支 地 址 中 。 
compiler〈 编 译 程序 ) “一 个 分 析 程 序 ， 并 且 还 将 源 代码 文本 翻译 为 目标 代码 。 
back end (后 端 ) ”生成 目标 代码 。 
front end (Bis) ”识别 一 个 语法 上 正确 的 源 程序 文本 。 
two-pass (MiB) ”编译 程序 两 遍 扫 措 源 程序 ， 以 解析 向 前 引用 。 
display (Display R) ” 帧 指针 的 向 量 (数组 )。 
goto instruction (GOTO 指令 ) 
(OD 一 条 分 支 指令 。 
(2) 一 条 非 结 构 化 〈 无 条 件 ) 跳 转 语句 。 
VO 输入/ 输出) ”计算 机 输入 和 输出 的 常见 缩写 。 
lex level 词法 层次 〉 在 静态 作用 域 语言 中 ， 源 程序 文本 中 某 一 特定 位 置 的 外 层 包 围 过 程 的 数目 ， 在 编 
译 时 即 可 确定 。 
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memory-mapped (内 存 映 射 的 ) ”计算 机 LO 的 一 种 实现 方式 ， 将 一 部 分 内 存 地 址 空间 分 配 为 输入 和 输 
出 寄存 器 。 

object code (目标 代码 ) ”目标 机 器 的 语言 。 

orthogonality ( 正 交 性 ) ” 指 计算 机 体系 结构 的 正 交 性 ， 是 一 条 指令 的 寻 址 模式 独立 于 操作 的 程度 。 如 果 
每 一 指令 具有 相同 的 寻 址 模式 ， 则 称 该 机 器 为 完全 正 交 的 。 

register (寄存 器 ) 
C1) 高 速 数据 存储 电路 。 
(2) 计算 机 中 单独 可 编 址 的 一 类 存储 空间 ， 访 问 时 比 主 存 更 简单 、 更 快速 。 

syntax-directed code generation 〈 语 法 制导 代码 生成 ) ”代码 生成 序列 定义 在 语言 的 语法 文法 中 ， 而 不 
是 根据 其 静态 语义 来 选择 。 


1. 为 以 下 每 一 小 题 编写 Itty Bitty 栈 机 器 的 “汇编 语言 ”代码 (使 用 助 记 符 ， 并 加 上 适当 的 注释 )， 并 以 
手工 方式 汇编 为 机 器 代码 。 
(a) 给 定 栈 顶 两 个 数 ， 弹 出 〈 并 丢弃 ) 其 中 较 小 的 数 ， 保 留 较 大 的 数 。 
(b) 求 1 到 的 连续 奇数 之 和 ， 其 中 闫 由 内 存 中 的 一 个 变量 指定 。 
(c) 给 定 存放 在 内 存 中 的 某 一 变量 中 的 任意 数 ， 计 算 其 平方 根 ， 方 法 是 计算 在 它 变 为 负数 之 前 可 减 去 
的 连续 奇数 的 个 数 。 提 示 : 1+3=4=22，1+3+5=9=32， 如 此 类 推 。 
(d) 在 IBSM 中 没有 单条 指令 将 栈 顶 的 布尔 值 反 转 ， 即 将 false(0) 改 为 true(1)， 反 之 亦 然 。 试 给 
出 两 个 不 同 的 IBSM 指令 序列 实现 这 一 功能 。 
Ce) 给 定 栈 中 两 个 (局部) 变量 地 址 和 一 个 数 n>0， 将 nn 个 连续 的 字 从 一 个 地 址 搬迁 到 另 一 地 址 中 ， 
并 在 完成 后 从 栈 中 删除 这 3 个 值 。 仅 使 用 栈 作 为 临时 存储 空间 , 不 要 使 用 内 存 中 的 任何 辅助 变量 。 
这 一 代码 可 用 在 编译 程序 中 实现 一 个 数据 结构 的 赋值 。 
(D 在 IBSM 中 没有 指令 执行 一 个 数 与 另 一 个 数 的 除法 。 编 写 一 个 过 程 ， 它 接受 两 个 参数 a 和 b. 
Ela DIVb 的 商 。 除 数 b 为 0 时 停机 ， 但 对 负数 a 或 b 应 给 出 正确 的 结果 。 一 种 简单 〈 但 费时 ) 
的 方法 是 计算 从 被 除数 可 减 去 除数 的 次 数 。 计 算 a DIV b 的 更 快 例 程 是 以 下 算法 : 
n := 1; 
WHILE b <= a DO 
b := b + b; 
n:-n4l 
END; 
G := 0; 
WHILE n» 0 DO 
TF a < b THEN 


qd := qty 
ELSE 
a:-a- b; 
q:-qaegqel 
END; 
at=at+a; 
n :=n- 1 
END; 
RETURN q; 


(g) 修改 练习 1 CD 的 代码 ， 接 受 负数 作为 被 除数 和 (或 ) 除数 ， 并 给 出 正确 的 有 符号 结果 。 
2. 以 某 种 高 级 语言 (如 Modula-2 语言 ) 编写 一 对 过 程 ， 在 一 个 字符 VO 端口 上 实现 整数 的 VO. 
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Ca) 输入 功能 应 循环 地 读 入 一 个 特定 的 全 局 〈 整 型 ) 变量， 并 将 这 些 ASCI 数位 组 装 为 一 个 整数 后 ， 
作为 函数 结果 返回 。 

Cb) 输出 功能 应 将 其 参数 分 解 为 每 次 处 理 一 个 字符 ， 将 这 些 字符 存储 到 同一 全 局 变量 中 ; 不 可 使 用 数 

组 作为 中 间 存 储 。 

将 你 编写 的 过 程 翻译 为 IBSM 代码 ;使 用 以 下 IBSM 操作 序列 访问 字符 端口 : 

LoadCon 1 

Negate 

Global 

«load 或 store» 


3. 编写 一 个 属性 文法 ， 为 一 个 WHILE 循环 生成 正确 的 IBSM 代码 。 
4. (a) Jj Tiny BASIC 的 语义 编写 一 个 形式 化 的 属性 文法 。 
(b) 用 Modula-2 或 Pascal 语言 为 Tiny BASIC 编写 一 个 递归 下 降解 释 程 序 。 


复习 小 测验 


指出 下 列 陈 述 是 否 正确 。 

1. 语法 制导 代码 生成 意味 着 代码 生成 序列 由 一 个 描述 了 可 接受 的 源 程 序 文本 的 语法 定义 ,而 不 是 由 幅 套 
在 文法 中 的 语义 分 析 定 义 。 

.一 个 编译 程序 的 后 端 可 专门 只 负责 完成 代码 生成 工作 。 

. 在 IBSM 指令 集中 ， 操 作 zero 表示 清空 内 存 。 

， 使 用 语法 制导 代码 生成 技术 扩展 Micro-Modula 语言 ， 从 而 可 正确 地 编译 常量 标识 符 。 

. 不 可 能 生成 测试 一 个 条 件 并 在 条 件 为 真 时 分 支 的 IBSM 代码 。 


编译 程序 实验 项 目 


1. 为 你 的 Itty Bitty Modula 语言 编译 程序 的 文法 ， 
Ca) 添加 必要 的 语义 以 生成 IBSM 代码 。 在 初次 尝试 时 ， 先 不 考虑 对 过 程 的 处 理 。 
(b) 在 TAG 编译 程序 中 编译 你 的 编译 程序 ， 或 者 以 手工 编码 方式 将 新 的 变化 添加 到 你 的 递归 下 降 分 
析 程 序 中 。 i 
(c) 通过 编译 一 些小 型 的 IBSM 程序 测试 你 的 编译 程序 ， 并 在 IBSM 上 运行 它们 。 注 意 确 保 檬 套 循 环 
和 条 件 语 句 可 以 正确 地 运行 。 
2. 为 你 的 文法 添加 语法 以 及 正确 的 语义 ， 以 实现 : 
(a) 子 界 类 型 〈( 含 范围 检查 〉 和 CHAR 类 型 。 
(b) 记录 类 型 〈 但 不 要 打算 实现 WITH 语句 )。 
(c) 指针 类 型 。 
(d) 数组 类 型 〈 这 需要 子 界 类 型 )。 
(e) FOR 循环 。 
(D 无 参数 的 函数 《但 不 要 打算 实现 过 程 变量 )。 
(QD 最 多 只 有 两 个 参数 的 过 程 〈 不 要 打算 实现 变 参 )。 
Ch) 内 置 库 过 程 ReadChar 和 Writechazr (使 用 保留 字 作为 过 程 名 ， 并 使 用 内 联 代码 )。 


进一步 阅读 


Cattell, R.G.G. "Automatic Derivation of Code Generators from Machine Description.” ACM Transactions on 
Programming Languages and Systems, Vol.2, No.2 (April 1980), pp.173-190. 
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所 给 出 的 方法 基于 一 种 所 谓 的 树 产生 式 的 模板 形式 ， 这 些 产 生 式 一 起 被 收集 到 机 器 表 中 ， 在 代码 生 
成 时 ， 使 用 一 种 模式 匹配 技术 ， 分 析 树 中 的 结 点 与 机 器 表 中 对 应 的 产生 式 匹 配 〈 参 阅 文中 第 3 
节 对 该 方法 的 描述 )。 
Ganapathi, M. Retargetable Code Generation and Optimization Using Attribute Grammars, Ph.D. Dissertation, 
University of Wisconsin at Madison, 1980. 
将 Graham-Glanville 方法 扩展 为 一 种 完整 的 属性 文法 方法 学 (参阅 D. Spector 的 综述 文章 )。 
Ganapathi, M. & Fischer, C.N. "Affix Grammar Driven Code Generation." ACM Transactions on Programming 
Languages and Systems, Vol.7, No.4 (October 1985), pp.560-599. 
参阅 第 1 节 ， 特 别 是 第 562—563 页 ， 其 中 总 结 了 附加 文法 策略 。 
Hopgood, F.R.A. Compiling Techniques, New York: American Elsevier, 1969. 
参阅 第 8 章 “ 算 术 表达 式 的 代码 生成 ?” 其 中 讨论 了 针对 一 台 虚 构 的 单 累加 器 计算 机 的 代码 生成 。 
Jacobi, C. Code Generation and the Lilith Architecture, Ph.D. Dissertation, Swiss Federal Institute of 
Technology, 1951. 
Lilith 计算 机 是 一 种 面向 Modula-2 指令 集 设计 的 栈 机 器 ， 参 阅 其 中 第 4 章 关 于 编译 问题 的 讨论 。 
Lukasiewicz, J. "Formalization of Mathematical Theories." Paris, 1953. In Jan Lukasiewicz: Selected Works ed. 
L. Borkowski. Amsterdam, Netherlands: North-Holland, 1970. 
SAA I, PCRPRETALT Sem HAUS STIS OE. 
Lukasiewicz, J. Elements of Mathematical Logic. Oxford, Eng.: Pergamon Press, 1963. 
参阅 第 1.2 部 分 ， 卢 卡 西 维 茨 介绍 了 他 为 命题 逻辑 开发 的 无 括号 符号 化 方法 中 的 表示 法 。 
Spector, D. & Turner, P.K. "Limitations of Graham-Glanville Style Code Generation." ACM SIGPLAN Notices, 
Vol.22, No.2 (February 1987), pp.100-108. 
参阅 第 3.3 节 ， 介 绍 了 一 种 所 谓 的 “上 一 下 ”分 析 方 法 《使 用 一 种 完全 由 表格 驱动 的 分 析 算 法 ); 这 
种 分 析 文 法 不 同 于 Graham-Glanville 采用 的 从 左 到 右 分 析 方 法 。 


第 7 章 ， 自 底 向 上 分 析 程 序 的 自动 化 设计 


ABBE: 

e 考虑 自 底 向 上 ( 移 进 - 归 约 ) 分 析 技 术 

。 区 别 不 同类 的 自 底 向 上 文法 及 其 相应 的 分 析 程 序 ; LROO. SER(O LALR) 
e 学 习 如 何 构 造 一 个 LR(A) 状 态 机 

e 探讨 LR(1) 和 SLR(1) 状 态 表 

o TA “HERE” RR 

。 开发 一 个 LR 分 析 表 解释 程序 

e 考虑 LR 分 析 程 序 中 的 属性 求 值 


7.1 简介 


迄今 为 止 ， 本 书 的 重点 是 自 顶 向 下 分 析 技 术 ， 因 为 只 有 LL(1) 文 法 可 手工 转换 为 一 个 非常 
高 效 的 分 析 程 序 。 但 现今 的 技术 早已 超越 手工 的 编译 程序 构造 方式 ， 故 本 章 转 而 关注 确定 的 下 
推 自动 机 (PDA)， 它 可 实现 一 种 自 底 向 上 的 (最 右 规范 的 分 析 。 
在 一 个 自 项 向 下 分 析 程 序 的 PDA 中 , 栈 可 从 左 到 右 读 (其 中 左 端 是 栈 顶 ), 如 图 7-1a 所 示 。 
可 以 将 栈 想像 为 一 个 杯子 或 瓶子 ， 平 放 在 桌 上 且 底 部 朝 右 。 若 将 已 读 入 的 输入 串 部 分 连接 到 栈 
的 左 端 (就 好 像 杯 中 的 一 些 东 西游 出 到 桌面 上 )， 则 输入 串 和 栈 组 合 在 一 起 是 最 左 规范 分 析 中 
的 一 个 句 型 ， 图 7-1 给 出 了 其 示意 图 。 
最 近 压 入 最 近 压 入 
的 符号 的 符号 


a) b) 


图 7-1 自 顶 向 下 (a) 和 自 底 向 上 (b) 的 栈 朝向 。 串 “*FPS” 和 “T+F*” 表 示 在 分 析 
过 程 中 某 一 特定 格局 的 当前 栈 内 容 〈 分 别 是 表 7-1 PAS T.11 和 表 7-2 中 的 B.8) 


类 似 地 ， 自 底 向 上 分 析 程 序 的 PDA 的 栈 从 左 到 右 读 (其 中 左 端 是 栈 底 ， 如 图 7-1b 所 示 )， 
加 上 剩余 的 未 读 输 入 串 连接 到 栈 的 右 端 〈 就 好 像 从 打 翻 的 瓶子 中 溢出 )， 将 形成 一 个 最 右 规范 
分 析 中 的 句 型 《参阅 表 7-2)。 注 意 ， 自 顶 向 下 的 分 析 在 起 始 时 栈 中 有 一 个 目标 符号 ， 而 自 底 向 
上 分 析 则 在 结束 时 栈 中 形成 一 个 目标 符号 。 
再 次 考虑 文法 G 的 LL(1) 形 式 Gy: 
E— TS Po*FP 
SO+TS PoE 
Soe F4(E) 
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T— FP Fon 


R71 AMAT PDA 的 栈 踪 迹 展 示 了 最 左 推导 过 程 ; 第 T11 步 
以 空心 字体 表示 的 串 是 推导 到 该 步骤 时 的 一 个 句 型 
步 


Jm 已 读 入 的 输入 串 未 读 的 输入 串 / 栈 中 的 内 容 产生 式 

.ntn*n 未 读 的 输入 

T.O 无 之 前 的 输入 
.E 栈 
.nan*n 未 读 的 输入 

T.1 ETS 
.TS FR 
.n*tn*n 未 读 的 输入 

T2 T—FP 
.FPS 栈 
.ntn*n 未 读 的 输入 

T.3 Fon 
.nPS 5 
.^n*n 未 读 的 输入 

工 4 之 前 的 输入 n 〈 读 输入 符号 ) 
.PS 栈 
.*n*n 未 读 的 输入 

T5 之 前 的 输入 n Poe 
.S 7 
.*n*n 未 读 的 输入 

T6 之 前 的 输入 n S 一 +TS 
.+TS 栈 
.n*n 未 读 的 输入 

T3 之 前 的 输入 n+ ( 读 输 入 符号 ) 
-TS 栈 
.n*n 未 读 的 输入 

T8 之 前 的 输入 n+ ToFP 
.FPS f 
.n*n 未 读 的 输入 

T9 之 前 的 输入 n+ Fon 
.nPS 栈 
.*n 未 读 的 输入 

T.10 之 前 的 输入 ntn 〈 读 输入 符号 ) 
.PS fk 


未 读 的 输入 






T.11 之 前 的 输入 Po*FP 
.tBPS $ 
en 未 读 的 输入 

T.12 之 前 的 输入 n+n* 〈 读 输入 符号 ) 
.FPS Bh 
.n 未 读 的 输入 c 

T.13 之 前 的 输入 n+n* Fon 
nPS 栈 

T14 之 前 的 输入 n+n*n l ( 读 输 入 符号 ) 
.PS 栈 

T.15 之 前 的 输入 ntn*n Poe 
S t 

Tl 


6 之 前 的 输入 ntn*n | Sot 


(如 表 中 第 B.7 步 所 示 )。 
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A 7-1 展示 了 一 个 自 项 向 下 分 析 程 序 在 分 析 输 入 串 ntn * n 时 的 踪迹 。 注 意 ， 如 果 将 之 前 
读 入 的 输入 串 与 栈 的 内 容 一 起 好 像 放 在 同一 行 那样 阅读 〈 如 表 中 第 T.11 步 所 示 )， 结 果 将 是 一 
个 句 型 。 表 7-2 展示 了 以 同一 文法 的 自 底 向 上 分 析 程 序 的 PDA 分 析 同 一 个 串 的 过 程 , 然而 这 里 
的 栈 位 于 左边 ， 将 栈 中 的 内 容 与 仍 未 读 入 的 输入 串 好 像 在 同一 行 中 那样 阅读 ， 结 果 是 一 个 名 型 


又 


B.0 


B.2 


B.3 


B.4 


B.5 


B.6 


B.7 


B.8 


B.9 


B.10 


B.12 


B.13 


#7-2 AREE PDA 的 栈 踪迹 〈 自 底 向 上 读 取 踪 迹 ) 展示 了 最 右 推导 过 程 ; 
第 B.7 步 以 空心 字体 表示 的 串 是 推导 到 该 步骤 时 的 一 个 句 型 


已 读 入 的 输入 串 / 栈 中 的 内 容 
无 之 前 的 输入 


us 
之 


$k 
之 


m 
之 


H 
之 


栈 
之 


之 


H 
前 的 输入 


前 的 输入 


前 的 输入 


前 的 输入 


前 的 输入 


前 的 输入 


n+n*. 


T«F*. 


ntn*n. 


T+F*n. 


ntn*n. 
T«F*F. 


ntn*n. 
+ 


T+F*FP. 
ntn*n. 


T+FP. 
nin*n. 


T+T. 


+n*n 


n 


未 读 的 输入 串 





未 读 的 输入 


未 读 的 输入 


未 读 的 输入 


未 读 的 输入 





未 读 的 输入 


未 读 的 输入 





未 读 的 输入 


产生 式 


〈 读 输入 符号 ) 


Fon 


Poe 


T—FP 


〈 读 输入 符号 


〈 读 输入 符号 ) 


Fon 


〈 读 输入 符号 ) 


CEMA SD 


Fon 


P+e 


P-*FP 


T—7FP 
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未 读 的 答 入 串 


栈 





自 顶 向 下 分 析 程 序 有 时 也 称 预 测 分 析 程 序 ， 因 为 〈《 除 向 前 看 符号 之 外 ) 它 在 读 入 一 个 输入 
符号 之 前 会 预测 输入 串 中 该 符号 会 是 什么 。 AREETA RRA RH, -IERI 
顶部 符号 中 识别 出 产生 式 的 右 部 就 立即 应 用 该 产生 式 。 

对 于 这 里 的 文法 Ga 例子， 在 分 析 过 程 中 通常 同时 有 多 个 机 会 将 某 一 产生 式 应 用 到 栈 项 的 
符号 。 例 如 ， 表 7-2 中 第 B.14 行 选 择 了 应 用 产生 式 $ 一 +TS， 尽 管 我 们 也 可 能 轻易 地 选择 了 
S 一 TS 甚至 S 一 8。 类 似 于 自 顶 向 下 分 析 ， 多 条 可 用 产生 式 之 间 的 选择 在 必要 时 须 借 助 于 向 
前 看 符号 ， 又 或 从 输入 串 中 读 入 另 一 符号 到 栈 中 ， 而 不 是 应 用 一 条 产生 式 。 然 而 ， 决 定 应 用 哪 
一 条 产生 式 所 需 的 大 部 分 信息 往往 包含 在 分 析 程序 的 栈 中 。 直 到 产生 式 右 部 的 所 有 单词 已 读 入 
并 表示 在 栈 顶 ， 才 决定 应 用 哪 一 条 产生 式 ， 这 样 就 能 保证 如 果 基 于 大 个 向 前 看 符号 有 可 能 实现 
确定 的 分 析 ， 那 么 就 可 以 构建 一 个 LR(A) 分 析 程 序 。 高 德 纳 证 明了 一 个 有 穷 状态 自动 机 CRSA) 
可 检查 栈 中 的 内 容 ， 使 得 一 个 不 超过 个 向 前 看 符号 的 自 底 向 上 分 析 程 序 的 PDA. 可 以 确定 地 
选择 应 用 正确 的 产生 式 〈 如 果 存 在 这 样 的 产生 式 )。 这 一 FSA 是 所 有 LR(k) 分 析 程 序 的 基础 。 
栈 可 以 有 任意 的 深度 ， 因 而 分 析 程序 的 每 次 状态 变迁 都 检查 栈 中 的 全 部 内 容 将 略 显 兄长 ， 幸 好 
这 并 不 是 必要 的 。 


7.2 LR( 有 分析 程 序 


考虑 一 个 简单 文法 Gay: 
S>aAd A >c 
SobBd Bc 
该 文法 是 LL(D 的 ， 故 显然 可 构建 一 个 确定 的 分 析 程 序 。 以 自 底 向 上 方式 分 析 输 入 串 bed 
时 ， 在 将 两 个 单词 读 入 栈 中 后 ， 向 前 看 符号 是 d， 这 对 于 选择 应 用 哪 一 条 产生 式 毫 无 帮助 。 如 
果 分 析 程 序 错误 地 选择 了 产生 式 A 一 c, 那么 在 读 入 4 后 将 阻塞 ,因为 没有 产生 式 容许 串 bAd, 
dud 7-3 所 示 。 然 而 ， 通 过 分 析 栈 中 内 容 可 知 ， 惟 一 正确 的 选择 必定 是 产生 式 B 一 c。 


表 7-3 在 忽略 栈 中 内 容 的 情况 下 ， 文 法 Gai 的 自 底 向 上 分 析 的 尝试 踪迹 












之 前 的 输入 

bcd 未 读 的 输入 
zr . 
之 前 的 输入 b. 





cd 未 读 的 输入 ( 读 输 入 符号 ) 





Bi 


166 £73 


(E) 

之 前 的 输入 bc. 

d 未 读 的 输入 〈 读 输入 符号 ) 
T bc. 
之 前 的 输入 bc. 

d 未 读 的 输入 Arc 7 
E bA. 
之 前 的 输入 bcd. 、 n 
入 bAd. 〈 读 输入 符号 ) 
之 前 的 输入 bcd. 
M bAd. (阻塞 ) 


在 任 一 决策 点 ， 仅 存在 有 穷 数 目的 可 能 选择 ， 因 而 如 果 本 来 就 存在 一 个 确定 的 分 析 过 程 ， 
就 可 用 一 个 有 人 穷 状态 自动 机 遍历 并 分 析 栈 中 的 内 容 ， 最 终 得 出 决策 结果 。 文 法 Ga 的 这 个 FSA 
如 图 7-2 所 示 。 留意 文法 Ga 是 LR(0) 的 ， ZB EA aS R E ATE E h k 
所 有 串 。 当 然 ， 该 语言 还 是 有 穷 的 ， 并 且 没 多 大 意思 。 





7-2 文法 G4 的 LR(O) 栈 的 有 穷 状 态 自动 机 


该 FSA 按 如 下 方式 工作 。 开 始 时 状态 0 位 于 栈 的 底部 , 栈 中 每 一 符号 均 前 进 一 个 状态 , E 
至 到 达 栈 的 顶部 。 如 果 栈 顶 是 一 个 停机 状态 ， 则 应 用 该 状态 所 指示 的 产生 式 ， 即 从 栈 中 弹出 该 

产生 式 右 部 的 所 有 符号 ， 然 后 以 产生 式 左 部 的 非 终结 符 取 而 代 之 ; 如 果 栈 顶 到 达 的 是 任何 其 他 
状态 ， 则 读 入 下 一 输入 单词 并 压 入 栈 中 。 在 这 两 种 情况 下 ，FSA 均 从 栈 底 的 状态 0 重新 启动 。 
WR FSA 未 到 达 顶 部 即 阻塞 ， 则 报告 一 个 错误 : 输入 串 不 属于 该 语言 。 
7.2.4 构造 LR(A) 状 态 机 

控制 一 个 LR(O 分 析 程 序 的 有 穷 状 态 自 动机 可 根据 语言 的 文法 以 算法 方式 自动 地 构造 。 这 
一 构造 过 程 复杂 且 元 长 ， 故 而 一 个 真正 的 编译 程序 不 会 以 手工 方式 构造 。 

文法 G 的 语言 分 析 程 序 的 FSA 中 ， 每 一 状态 q 由 PDA 格局 的 一 个 等 价 类 《〈 即 “项 目 ?) 
组 成 。 一 个 项 目 写 作 如 下 形式 : 

Auev;o 

其 中 ，A 一 uv 是 文法 G 中 的 一 条 产生 式 ，o 是 一 个 由 个 终结 符 组 成 的 囊 。 分 隔 符 “e” 在 某 
种 意义 上 可 理解 为 FSA 在 遍历 栈 中 内 容 时 的 读 磁头 ; 尽管 这 样 有 助 于 直观 理解 , 但 这 样 的 理解 
却 是 不 够 严谨 的 ， 因 为 栈 中 实际 上 包含 了 一 个 句 型 的 全 部 左 部 ， 而 项 目 仅 对 单条 产生 式 进行 
编码 。 

一 个 项 目 在 其 右 部 包含 一 个 分 隔 符 ，& 和 vw 分 别 表示 在 这 一 特定 项 目 中 分 隔 符 左边 和 右边 
的 、 由 终结 符 与 非 终结 符 组 成 的 囊 (可 能 为 空 串 )。 根 据 这 一 .上 下 文中 的 非 终结 符 的 Folow 集 
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可 推导 出 串 o，6 将 用 于 确定 向 前 看 符号 ;我们 很 快 将 看 到 ， 不 同类 的 LR 文法 在 很 大 程度 上 就 
是 由 6 的 计算 方式 决定 的 。 
FSA 的 起 始 状态 qo 初始 时 是 所 有 项 目的 集合 : 
S>ew; L 
其 中 ，S 是 文法 G 的 目标 符号 ，S Sow 是 一 条 产生 式 ,“ 上 ”是 一 个 表示 输入 结束 的 单词 《正如 
之 前 的 假设 ， 其 长 度 不 超过 个 符号 )。 对 于 文法 Ga. qo 的 初始 项 目 集 是 以 下 集合 ; 
S— eaAd;l 
SoebBd;l 
从 起 始 状 态 qo 出 发 ， 每 次 定义 一 个 新 状态 时 ， 调用 状态 上 的 closure 运算 ， 即 对 每 一 项 目 : 
A—ueBv;iw 
以 及 First(ww) 中 的 每 一 个 元 素 ” 在 项 目 集中 添加 新 的 项 目 ， 
Boexsy 
HH, Box 是 文法 G 中 的 一 条 产生 式 。 
闭 包 运 算 closure 不 会 为 文法 Ga 的 起 始 状态 qo 添加 新 项 目 。 一 个 项 目 集 表示 了 分 析 程 序 
自动 机 中 的 一 个 状态 ， 闭 包 运算 记录 了 该 文法 中 可 在 一 个 推导 过 程 中 应 用 的 所 有 可 能 的 产生 
式 ， 这 一 分 析 过 程 将 在 PDA 中 传递 此 状态 。 直 观 地 看 ， 这 在 概念 上 类 似 于 将 构造 一 个 非 确定 
的 FSA 看 作 从 正则 文法 转换 为 一 个 FSA 的 构造 过 程 的 一 部 分 ， 尽 管 这 两 者 并 非 完全 相同 。 实 
质 上 ， 闭 包 运 算 展开 了 一 个 项 目 集 的 所 有 项 目 中 直接 跟 在 分 隔 符 右边 的 非 终结 符 ， 反 映 了 在 分 
析 语 言 中 一 个 串 的 过 程 中 该 产生 式 的 可 能 应 用 。 
从 一 个 状态 转 入 另 一 状态 的 变迁 被 定义 为 在 一 个 项 目 中 将 分 隔 符 向 右前 进 一 个 符号 (终结 
符 或 非 终 结 符 )。 因 而 ， 给 定 一 个 非 终结 符 或 终结 符 x， 状 态 中 中 每 一 项 目 : 
À-——u*xv;y 

将 在 新 状态 q; 中 创建 一 个 新 项 目 : 
ÁÀ-—uxe*v;y 

并 为 FSA 的 变迁 集 添加 一 条 新 变迁 : 
5( qx) =q; 

只 要 存在 一 条 沿 一 个 终结 符 或 非 终结 符 x 出 发 的 变迁 ， 就 构建 这 一 新 的 状态 ， 从 某 一 特定 
状态 qg 沿 标记 为 的 所 有 变迁 出 发 ， 都 会 到 达 相同 的 状态 go EXE Ga 的 例子 中 ， 基 于 qo 的 
项 目 集 中 的 第 一 个 项 目 , 可 构造 从 qo 到 qi 的 变迁 a; qo 中 的 第 二 个 项 目 产 生 一 条 到 达 另 一 不 同 
RE Cinq 的 变迁 。 

如 果 闭 包 运算 得 到 的 一 个 新 状态 q 与 某 一 现 有 的 状态 qs 具有 相同 的 项 目 列表 , 则 丢弃 新 状 
态 ， 并 在 每 一 新 变迁 中 以 取代 q。 注 意 ， 如 果 由 闭 包 运算 添加 到 一 个 状态 中 的 所 有 项 目 被 
作 上 标记 ， 且 新 状态 与 另 一 状态 中 的 所 有 无 标记 项 目 相同 ， 则 在 调用 闭 包 运算 之 前 即 可 确定 
重复 出 现 的 状态 。 无 标记 的 项 目 集 有 时 又 称 为 “ 核 ”。 须 小 心 检查 这 些 状态 以 保证 完全 相等 ， 
因为 一 个 新 状态 在 创建 时 可 能 比 其 他 状态 多 一 些 或 少 一 些 项 目 ; 这 些 状 态 不 会 被 看 作 是 相同 的 
状态 。 

APRA ARAN ER, 每 一 产生 式 中 仅 有 有 穷 数 目的 分 隔 符 位 置 ， 且 长 度 为 的 所 有 
串 的 数目 也 是 有 穷 的 ， 由 上 述 过 程 创 建 的 状态 数目 自然 也 是 有 穷 的 ， 因 此 算法 必定 是 可 终止 的 。 
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7.8.5 一 个 LR(2) 分 析 程 序 
让 我 们 构造 一 个 LR(2) 分 析 程 序 的 FSA 识别 上 述 文 法 G4 的 语言 ,初始 状态 qo 中 有 两 个 项 目 : 
So*aAd;l 
So ebBd; L 
如 前 所 述 ， 由 于 不 存在 一 个 项 目 中 有 非 终 结 符 直 接 跟 在 分 隔 符 之 后 ， 所 以 闭 包 运算 不 会 添 
加 任何 项 目 。 现 在 添加 变迁 5 ( qo, a ) = qi 后 ， 创 建 一 个 新 状态 a: 
SoaeAd;i 
该 状态 开始 时 仅 有 一 个 项 目 ， 因 为 go 中 只 有 一 个 项 目 在 其 分 隔 符 的 右边 有 a。 由 于 这 一 项 
目 中 有 一 个 非 终 结 符 A 位 于 分 隔 符 的 右边 ， 闭 包 运 算 根据 产生 式 AS c 添加 一 个 新 的 项 目 ; 
Ao*-c;dl 
新 的 Follow 串通 过 以 下 方法 构造 : 在 那些 能 跟随 非 终结 符 A 的 串 〈 即 单词 d) 的 右 端 再 拼 
接 上 之 前 的 Follow $ CL). 由 于 现在 构造 的 是 LR(2) 识 别 程序 , 我 们 需要 的 是 上 述 结果 的 First, 
RA, BN “dl” NE, 
添加 变迁 5 (qu ce ) = qz 后， 构造 了 状态 qg。( 闭 包 运 算 没 有 添加 任何 项 目 ): 
A— ce;dl 
从 qi 中 其 他 可 能 的 变迁 出 发 ， 可 类 似 地 构造 状态 gs; 和 qus 根据 qo 中 的 第 二 个 项 目 ， 可 类 
似 地 构造 状态 qs qa. 留意 状态 的 名 字 是 相当 随意 的 , 我 们 直接 按 创 建 的 次 序 为 这 些 状态 编号 。 
表 7-4 展示 了 构造 过 程 完成 后 的 结果 ， 与 图 7-2 所 示 的 FSA 相同 。 


表 7-4 文法 Ga 的 LR(2) 分 析 程 序 的 状态 





状 S 项 H 变 X 
S > eaAd; L $(9,2)7q 

40 S > ebBd; L (qo, b ) = qs 

S  aeAd; L 8(q,A)zq: 
a A > ec; dl 6(q,c)-2q 

" RA Sc 
= TYIEP 
D RU S > aAd 
S 一 beBd; 1 8(q5,B)7q 

$s B > ec; di 5 (qs, ¢) =q6 

" AB >< 
q S + bBed; 1 8(q,d)-q 
qs 应 用 S 一 5B4 


7.2.3 ” 归 约 与 移 进 操作 

FSA 的 停机 状态 是 那些 包含 一 个 其 分 隔 符 位 于 最 右 端 的 项 目的 状态 ， 这 一 项 目 就 是 LR 分 
析 程 序 必 须 应 用 的 产生 式 。 栈 的 顶部 恰好 与 待 应 用 的 产生 式 右 部 匹配 ， 它 将 被 该 产生 式 左 部 的 
非 终结 符 取 代 ， 这 一 动作 称 为 “应 用 ”或 “ 归 约 风 因为 产生 式 右 部 《又 称 句柄 ) 被 归 约 为 非 
终结 符 。 然 后 ，FSA 又 从 栈 底 的 状态 qo 重新 开始 工作 。 

我 们 可 用 刚才 构造 的 表格 分 析 文法 Ga 的 语言 中 的 一 个 串 bcd。 分 析 工作 从 状态 0 CHI qo) 
开始 且 栈 为 空 FSA 所 处 的 《 空 栈 ) 栈 顶 不 是 一 个 停机 状态 ， 因 而 读 入 b 并 压 入 栈 中 。 接 着 还 
是 从 状态 0 出 发 ，FSA 选择 沿 b 到 达 状 态 5 的 变迁 ， 然 后 到 达 栈 顶 ， 此 时 要 求 读 入 另 一 单词 ， 
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这 次 将 c 压 入 栈 中 ， 现 在 栈 中 有 两 个 单词 : bc。 然后 再 次 从 栈 底 的 状态 0 重新 启动 FSA， 沿 变 
迁 b 快速 前 进 到 状态 5S， 再 沿 变迁 c 到 达 状 态 6; 状态 6 是 一 个 停机 状态 ， 与 之 关联 的 是 产生 
式 B 一 c， 因 而 从 栈 中 弹出 c 并 以 非 终结 符 了 B 取而代之 ， 形 成 的 新 格局 是 栈 中 有 DB. XXII, 
由 栈 底 向 上 的 状态 序列 为 0-5-7; 状态 7 是 一 个 读 入 状态 , 即 它 不 归 约 任何 产生 式 , 而 是 若 FSA 
到 达 栈 顶 时 处 于 该 状态 ， 则 读 入 下 一 单词 并 压 入 栈 中 。 在 栈 中 内 容 为 bBd 时 FSA 再 次 重新 启 
动 ， 得 到 状态 序列 0-5-7-8; 由 于 状态 8 是 一 个 停机 状态 ， 与 之 关联 的 产生 式 为 S > bBBd， 因 而 


栈 顶 的 三 个 符号 被 弹出 ， 并 被 非 终结 符 S 取代 。S 是 目标 符号 ， 因 此 分 析 程序 接受 该 输入 串 。 
当 FSA 到 达 栈 项 时 不 是 处 于 一 个 停机 状态 ， 则 读 入 下 一 输入 符号 并 压 入 栈 中 。 该 过 程 又 称 
“ 移 进 ”， 因 为 输入 单词 从 输入 串 的 左边 移 到 栈 中 。 


7.8 ”冲突 


如 果 FSA 到 达 栈 顶 时 所 处 的 状态 包含 从 两 个 不 同 产生 式 得 到 的 归 约 项 目 , 或 包含 一 个 归 约 
项 目 加 上 至 少 一 个 移 进 项 目 (其 中 分 隔 符 不 是 位 于 项 目 串 的 右 端 )， 那 么 会 出 现 “ 归 约 一 归 约 ” 
冲突 或 “ 移 进 一 归 约 ” 冲 突 (有 了 时 也 称 “ 读 入 一 应 用 ”冲突 ， 以 与 另 一 套 术 语 保 持 一 致 )。 在 
表 7-4 所 示 的 文法 Ga 例子 中 , 不 存在 这 样 的 冲突 。 一 个 LR(A) 分 析 程 序 中 的 任何 “ 归 约 一 归 约 ” 
冲突 均 可 基于 在 构造 过 程 中 携带 的 Follow 集 得 到 解析 。 这 些 Follow 集 在 构造 时 就 是 接 在 每 一 
产生 式 后 面 的 个 符号 ， 由 于 文法 是 LR(k) 的 ， 冲 突 肯 定 可 被 解析 。 如 果 包 括 移 进项 目 中 分 隔 
符 右边 的 串 的 Firs&， 则 可 类 似 地 解析 “ 移 进 一 归 约 ”冲突 。 因 而 ， 对 于 一 个 项 目 : 

Aue*vix 
选择 移 进 的 向 前 看 符号 集 将 包括 Firstx(vx)。 如 果 分 析 程 序 的 构造 过 程 无 法 针对 “ 归 约 一 归 约 ” 
冲突 或 “ 移 进 一 归 约 ”冲突 生成 互 不 相交 的 、k 个 符号 的 向 前 看 符号 集 ， 那 么 这 一 分 析 程 序 就 
不 是 LR(D) 的 ， 如 果 不 存在 这 类 冲突 ， 那 么 文法 就 是 LR(0) 的 。 


7.4 GIF: 文法 Gs 的 冲突 解析 


再 看 另 一 个 演示 了 如 何 解析 一 些 冲突 的 例子 ， 试 为 文法 Gs 构造 一 个 LR(1) 分 析 程 序 。 我 们 
使 用 一 个 特殊 的 目标 符号 G， 以 避免 出 现 识 别 一 个 文法 的 接受 状态 时 目标 符号 出 现在 某 一 产生 
式 右 部 的 问题 。 因 而 ， 起 始 状态 qo 的 核 包括 一 个 项 目 : 
Go*E;l 
闭 包 运算 将 添加 E、T RIF 的 所 有 产生 式 ， 以 及 因 左 递归 的 非 终 结 符 E 和 T 的 Follow ® 
而 产生 的 另外 一 些 项 目 。 为 使 表达 方式 更 加 紧凑 ， 仅 在 其 Follow 集 有 区 别 的 项 目 被 集中 在 同 
一 行 ; 
Ee€E-T;l,-4 
Ee€T;l- 
ToeT*F;1,4,* 
ToeF;1,4,* 
Fe(E);1,4,* 
Foen;1,+,* 


第 一 条 变迁 沿 非 终结 符 E 转 入 状态 q1， 这 将 前 两 个 项 目 分隔 符 已 前 移 〉 作 为 核 : 
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GoEe;L 
E>Ee+T;1,+ 
此 时 ， 第 一 个 项 目 是 一 个 归 约 项 目 ， 而 第 二 个 是 一 个 移 进 项 目 。 然 而 ， 其 中 的 “ 移 进 一 归 
约 ” 冲 突 很 容易 解析 ， 因 为 归 约 项 目的 向 前 看 符号 集 是 文件 结束 符 ， 而 移 进项 目的 向 前 看 符号 
集 则 是 跟 在 分 隔 符 之 后 的 单词 “+”。 
留意 这 一 分 隔 符 代 表 了 FSA 扫描 输入 串 时 的 抽象 “ 读 磁 头 ”， 因 而 对 冲突 的 解析 是 基于 跟 
随 在 分 隔 符 之 后 的 串 。 仅 当 分 隔 符 至 串 尾 少 于 上 个 符号 的 情况 下 ， 我 们 才 携 带 分 号 后 的 向 前 看 
符号 集 。 在 本 例 中 ， 归 约 项 目的 右 端 有 一 个 分 隔 符 ， 因 而 它 将 依赖 于 向 前 看 符号 集 ， 而 移 进 项 
目的 分 隔 符 右 边 还 有 另 一 “+” 须 经 过 《忽略 了 向 前 看 符号 集中 距离 较 远 的 文件 结束 符 )， 因 此 
两 个 集合 是 不 相交 的 。 读 者 自己 可 验证 一 下 , K 7-5 是 一 个 完整 的 构造 过 程 , 并 且 其 余 四 个 “ 移 
进 一 归 约 ”冲突 的 解析 也 是 同样 地 基于 互 不 相交 的 向 前 看 符号 集 。 


表 7-5 文法 Ge 的 LR(1) 分 析 程 序 状态 


R 向 前 看 符号 





GoeE;L lq, E)2qi 
ESeE+T;1,+ 
E2e*T;l,* 8( qo, T)2q 
qo ToeT*F;1,4,* 
ToeF;1,+4,* (qo F) =q3 
F>e(E);1,+,* 8 (qo, () =q4 
F-en;1,+,* (qo, n) = qs 
E>T»;l,+ AEST {1,+} 
® ToTe*F;1,4,* 8(q,*)2q: {*} 
" 
F->(eE);1,+,* 8 (qs, E)-qs 
E>eE+T;),+ 
E>e¢T;),+ 5( qa, T)= Qo 
qa ToeT*F;), +, * 


ToeF;),+4,* 8 (qa, F) =quo 


F—>e(E);),+,* $(q. O=qn 

F-en;),+,* 6( gun)= qi 
as 
E>E+eT;1,+ 8( qs, T) = qi 
ToO*T*F;l-c* 
ToeF;1,+,* 
Foe(E);1,+,* 
Foen;1,+, * 
























5 (qs, F) =q; 
8 (qs, ()=q4 
5 (qe, n) = Qs 






ToT*eF;:1,4,* 8(q7,F)=qu 
q7 Foe(E);1,4,* (qr ()=q4 
F—en;l,4* 6(q7,n)=qs 





F(Ee);1,+,* 5 (qs, ) ) = qi 
: 

E>Te;),+ HA EAT {),+} 
a ToTe*F;),+,* 8 (qo. * ) = qi {*} 
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* os 向 前 看 符号 
di 
F3(*E);)-* ó(qi,B)2 qr 
E>eE+T;),+ 
E>eT;),+ 






















8 (qu. T)}=qo 














qu T> T*F;) +, * 
ToeF;),+,* 8(qu.F)=quo 
F-+e(E);),+,* (qm QO =u 
Fen,;),+,* 6(qu,n)2qn 
du 
ESE-«Te;lLl- HZ EE-T [L4] 
a3 TOTe*F;l&* $(as *) =a C 
qu 
aus F>(B)es1+* 
TOT*eF;),+,* (qie, F ) = qis 
qis F4e(E);),+,* § (que. ) qn 
Fen;),+,* 8 (que, 2) = qi2 
F>(Ee);),+,* 8( qi.) ) = 419 
aie 
dis 






EEteT;),+ 

T>e T*F;) +, * 
T2*F;)t* 8 ( q20, F )= qio 
Fe(E);),+,* $qo. (7 di 
Foen;),+,* 6{ q20, 2) = q12 


E>E+Te;),+ FA ESE+T DLE 
et ToTe*F;),+,* 8 (qa, * ) = 416 { *} 
7.5 在 栈 中 保存 状态 


在 PDA 运行 的 每 一 步 都 让 状态 机 遍历 栈 中 的 每 一 个 符号 是 相当 低 效 的 ， 实 际 上 第 2 章 下 
推 自动 机 的 定义 是 拒绝 此 类 浪费 的 。 然 而 易 见 ，LR(O 的 PDA 的 每 一 次 移动 最 多 只 将 一 个 符号 
压 入 栈 中 (尽管 可 能 弹出 多 个 符号 ); 因而 除 最 后 一 个 符号 的 压 栈 之 外 , 对 PDA 的 每 一 次 移动 ， 
FSA 都 将 在 整个 栈 中 退回 其 步骤 。 如 果 扩 展 PDA 栈 的 字母 表 以 包括 FSA 的 所 有 状态 ， 则 可 在 
栈 中 每 一 符号 之 后 插入 移 进 该 符号 后 的 FSA 状态 ， 如 图 7-3 所 示 。PDA 每 一 次 移 进 或 归 约 将 
一 个 新 符号 压 入 栈 中 之 后 ，FSA 可 从 这 一 新 符号 之 下 (左边 ) 的 状态 重新 启动 ， 从 这 里 出 发 仅 
运行 一 步 ， 然 后 将 新 状态 压 入 在 这 一 新 的 栈 符号 之 上 。PDA 根据 FSA 压 入 的 状态 的 指示 ， 立 
即 准 备 好 移 进 或 归 约 操作 ， 并 且 这 一 过 程 不 断 重复 。 如 果 现 在 接纳 FSA 的 状态 作为 PDA 的 状 
态 ， 则 新 的 PDA 符合 本 书 的 定义 ， 惟 一 例外 是 允许 一 次 从 栈 中 弹出 多 个 符号 。 

追踪 图 7-3 对 文法 G, 的 输入 串 n+n*n WOT, WRT Cohn) 总 是 包含 PDA 的 当 
前 状态 。 第 0 行 的 状态 是 gs， 这 是 一 个 移 进 状态 ， 因 而 从 输入 串 移 进 一 个 符号 (单词 &) BR 
中 。 表 7-5 中 状态 0 的 项 目 列 表 表 明 读 入 n 后 应 前 进 到 状态 5， 使 得 PDA 进入 第 1 行 。 状 态 5 
是 一 个 归 约 状态 ， 因 而 产生 式 右 部 的 所 有 符号 〈 即 单个 n) 从 栈 中 弹出 ， 并 代 之 以 相应 的 非 终 


8(qzo,T)= qai 





















qoo 
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结 符 Fs 栈 中 的 上 一 状态 恰好 是 状态 0， 因 而 在 状态 qo 的 项 目 列表 中 可 找到 沿 F 出 发 的 变迁 ， 
使 得 PDA 进入 第 2 行 的 状态 3。 重 复 一 次 该 过 程 ， 但 在 状态 gs (第 3 行 ) 时 状态 表 要 求 查看 向 
前 看 符号 ， 下 一 输入 符号 是 “+” 故 选择 PDA 执行 归 约 动作 。 在 第 8 行 ， 分 析 程 序 再 次 要 求 
向 前 看 ， 选 择 结果 是 执行 移 进 动作 。 

分 析 程 序 的 栈 未 读 的 下 一 输入 符号 分 析 程 序 和 动作 





e 


egg 
归 约 (向 前 看 符号 为 “+” 
移 进 


1 
2 
3 
4 
5 
6 
7 
8 


归 约 (向 前 看 符号 为 “1”) 
归 约 (向 前 看 符号 为 “LL”) 


接受 
7-3 将 FSA 状态 置 于 PDA 栈 中 后 ， 使 用 文法 GTB ne n*n 


无 论 分 析 程序 何 时 归 约 一 条 产生 式 ， 它 都 无 需 校 验 栈 中 的 符号 是 否 与 产生 式 右 部 的 符号 匹 
配 ， 因 为 FSA 已 经 完成 了 这 些 检查 工作 ; 只 要 计算 出 正确 的 栈 中 符号 数目 ， 并 直接 删除 它们 就 
足够 了 。 归 约 动作 删除 符号 后 的 栈 顶 状态 编号 变 成 分 析 程序 的 新 状态 ， 直 至 新 压 入 的 非 终 结 符 
执行 一 次 “ 移 进 ”动作 ， 亦 即 从 栈 中 最 后 露出 的 状态 编号 的 项 目 列表 中 查找 下 一 状态 。 


7.6 其 他 LR( 有 分 析 程 序 ， SLR 


尽管 LR( 昌 分析 程 序 的 构造 过 程 可 保证 构建 一 个 确定 的 分 析 程序 〈 假 如 存在 这 样 的 分 析 程 
序 )， 但 它 往往 导致 状态 表 非 常 庞 大 。 为 削减 状态 表 的 大 小 ，LR( 昌 语言 设置 了 若干 限制 。 这 些 
是 真正 的 限制 ， 因 为 一 种 LR( 昌 算法 可 为 某 一 文法 构造 一 个 确定 的 分 析 程序 ， 但 在 添加 了 这 些 
限制 的 情况 下 却 有 可 能 无 法 构造 。 然 而 ， 通 常 可 围绕 这 些 限制 来 设计 文法 ， 正 如 本 书 第 4 章 对 
LL(h) 文 法 的 处 理 ， 并 且 这 些 限制 通常 不 如 LL(A) 的 那么 严格 。LR 分 析 表 构造 的 所 有 变形 均 使 
用 相同 的 PDA 状态 序列 发 生 器 ， 它 们 之 间 的 惟一 区 别 在 于 分 析 表 是 如 何 构造 的 ， 这 反 过 来 又 
影响 了 分 析 表 的 大 小 。 

1965 年 ，DeRemer 设计 了 一 种 “简单 LR” (Bl SLR) 分 析 程序 。SLR 分 析 表 的 构造 方式 
本 质 上 与 LR 分 析 表 相同 ， 只 是 在 构造 过 程 中 不 携带 Follow 集 信息 。 在 出 现 “ 归 约 一 归 约 ”或 
“ 移 进 一 归 约 ”冲突 时 ， 改 为 直接 利用 相关 非 终 结 符 的 Follow 集 (由 第 4 章 的 LL(D 算 法 计算 )。 

这 一 做 法 有 两 个 效果 。 首 先 ， 项 目 列表 不 再 根据 其 Follow 集 区 分 开 来 ， 因 此 在 文法 G W 
构造 过 程 中 状态 gM qs 将 无 法 区 分 ， 从 而 也 不 会 有 各 自 独立 的 状态 ， 类 似 地 ， 状 态 q4 和 qui 
也 是 无 法 区 分 的 。 这 种 不 可 区 分 性 会 在 状态 对 之 间 传 播 ,例如 qs 一 qi7、 qis—qdi9、 de 一 q20、 913 一 
qz1、q3 一 qio、qs 一 qi2、q7 一 qi6、q14 一 qi8 等 。 因 而 SLR 分 析 表 (如 表 7-6 MR) MA 12 PRA, 





É REEDER H Å ERTH 
而 不 是 22 个 状态 。 对 于 更 复杂 的 语言 而 言 ， 状 态 数量 的 下 降 会 更 为 可 观 。 


状 


qa 


qs 


qs 


q7 


表 7-6 文法 Ge 的 SLR(1) 分 析 程序 状态 
态 


G—*E (qo E)7q 
E>eE+T 
E>eT 8 (qo, T) = q2 
ToeTtF 





ToeF 8 ( qo, F ) = q3 


F 一 *(E) ô (qo, ()= q4 


Fen 5 (qo, n ) = gs 

| 
E— Ee+T 6(qui *)2 ds 
ToTe*F $(q. *)=q7 


BA Tor 








F-(*E) 8(q, E)-qs 
E> eE+T 
E>eT $6(q,T)2q - 
ToeTtF 
T 一 。F ò (qa F)=q3 
F>e(E) (qa 079. 
Fen (qa 2) = qs 
E>E+eT 8 (qe, T) = 13 
To*T*F. 
To*F 8(q6,F)=q3 
F>e(E) 5 (qs, () = Ga 
Fen $(qs n)-qs 
ToT*eF (qn, F)=qu 
Fe(E) Slan 074 
Fen 6(q,n)29s 
F 一 (E。) (qs, ))=qis 
E—E-Te ABOE+T 
ToTe*F 6(qi, *)2q 


BAT 
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向 前 看 符号 


{Ll} 
{+} 
{), +1) 
{*} 


{),+,1} 
{*} 


现在 只 有 三 个 冲突 状态 ， dj、q 和 qus 这 三 个 冲突 均 为 “ 移 进 一 归 约 ” 冲 突 ， 其 中 待 移 进 
的 是 一 个 终结 符 。 一 个 文法 是 SLR( 旭 的 ， 如果 对 每 一 个 含 如 下 项 目的 “ 移 进 一 妇 约 ”冲突 状态 : 


A 一 Xe 
Boyez 


(其 中 A 不 一 定 是 与 B 不 同 的 非 终 结 符 )， 均 满足 Follew,( A) First, ( First,(z) Follow,(B ) ) 
无 公共 的 串 ， 并 且 对 每 一 个 含 如 下 项 目的 “ 归 约 一 归 约 ”冲突 状态 : 


Axe 
Bye 


174 #7 Ë 


均 满足 Follow, ( A )5 Follom( B ) 无 公共 的 串 。 由 于 Followi( G ) 不 包含 “+” 且 Follow, ( E ) 
不 包含 “*” 所 以 文法 G: 是 SLR(1) 的 。 

有 许多 真实 程序 设计 语言 的 无 二 义 文法 是 LR(1) 的 ， 但 不 是 SLR(I) 的 ; 虽然 Modula-2 语 
言 不 属于 这 类 情况 , 但 C 语言 却 是 这 样 的 语言 。 与 其 用 一 种 真实 程序 设计 语言 的 复杂 文法 演示 
这 一 问题 ， 不 如 用 一 个 虚构 的 简单 例子 G4 来 说 明 : 





S— aAa Ac 
SObAb Bocb 
SaBb 


当 根据 SLR 算法 构造 其 分 析 表 时 ， 会 遇 到 一 个 “ 归 约 一 妇 约 ” 冲突 状态 ， 其 中 包含 以 下 两 
个 项 H: 
Ace 
Bceb 
从 整个 文法 可 得 Follow (A) = {a, b}， 因 而 通过 考察 非 终 结 符 A 的 Follow 集 无 法 解析 溃 
突 。 但 如 果 使 用 LR 算法 ， 则 在 构造 过 程 中 A 所 携带 的 局 部 Follow HERRES a, K 
约 一 归 约 ”冲突 可 通过 单个 向 前 看 符号 得 到 解析 。 


7.7 LALR(A 分 析 程 序 


LR 分 析 表 的 大 小 远大 于 SLR 分 析 表 ， 所 以 具有 中 间 能 力 的 分 析 表 构造 算法 更 合 平 需要 。 
1969 年 ，Korenjak 提出 从 LR(k) 分 析 表 出 发 ， 可 以 将 具有 相同 核 的 所 有 状态 合并 为 单个 状态 。 
由 于 在 各 种 情况 下 每 一 项 目的 第 一 部 分 ( 即 在 产生 式 串 中 插入 分 隔 符 后 所 得 的 那 一 部 分 》 均 相 
同 ， 所 合并 的 只 是 状态 编号 和 向 前 看 符号 集 。 合 并 后 的 状态 中 的 向 前 看 符号 集 是 所 有 被 合并 状 
态 的 向 前 看 符号 集 的 并 集 。 如 果 在 每 一 种 情况 下 合并 产生 的 状态 均 不 存在 不 可 解析 的 冲突 ， 则 
称 该 文法 为 LALR(k) 的 , 通常 读 作 “laller”( 韵 同 “valor”); 尽管 在 远 辑 上 它 应 命名 为 “Look-Ahead 
SLR” 或 “Merged LR”， 但 这 一 首 字 母 缩 写 词 却 自 相 矛盾 地 代表 了 “Look-Ahead LR”. LALR 
状态 表 的 大 小 与 SLR 的 相同 , 但 由 于 在 构造 过 程 中 保留 了 向 前 看 符号 集 , 它 能 够 解析 一 些 SLR 
无 法 解析 的 冲突 。 

作为 一 个 例子 ， 再 次 考虑 表 7-5 中 文法 G 的 LR(D) 状 态 表 。 状 态 qs 与 gg 合并 后 ， 产 生 的 
状态 q 具有 相同 的 项 目 ， 但 向 前 看 符号 集 扩 展 为 同时 包含 串 结束 符 和 右 括号 : 

q29 E>Te;1,),+ JAN ESOT {1,},+} 
ToTe*F;1,), +, * 8 (dao, * ) = G6 {*} 
注意 ， 由 于 状态 dy 和 qi6 也 被 合并 ， 故 符号 “*” 的 移 进 变迁 转 入 合并 后 的 状态 qns. 

如 果 将 LALR(1) 构 造 过 程 用 于 一 个 SLR(1) 文 法 ， 则 生成 的 分 析 程 序 与 由 SLR 构造 过 程 产 
生 的 分 析 程 序 是 同 构 的 。 但是， 它 比 SLR 更 强大 ， 因 为 有 一 些 LR(h) 文 法 不 是 SLOR, HE 
LALR( 有 的 ; 例如 , 文法 Gz 不 是 SLR(1) 的 , 但 它 却 是 LALR(1) 的 。 然而, 以 下 文法 Ga 是 LR(1) 
的 ， 但 既 不 是 SLR(1) 的 、 也 不 是 LALR(1) 的 : 

SoaAa SoaBb 
SObAb S>bBa 
Ac B >c 
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通过 SLR 算法 构造 其 分 析 表 时 , 会 遇 到 一 个 “ 归 约 一 归 约 ”冲突 状态 ， 其 中 包含 以 下 两 个 
项 目 : 

Ace 

Boce 

从 整个 文法 看 ，Followi( A ) = Follew (B) 2 (a, b }， 因 而 通过 考察 Follow 集 无 法 解析 该 
冲突 。 但 如 果 使 用 LR SEXE, A AB 的 产生 式 会 构造 出 不 同 的 局 部 Follow 集 ， 因 而 可 利用 单个 
向 前 看 单词 解析 这 一 “ 归 约 一 归 约 ”冲突 。 然 而 ， 基 于 状态 的 核 项 目 合并 了 状态 之 后 ， 又 再 次 
回 到 不 可 解析 的 “ 归 约 一 归 约 ”冲突 。 

大 多 数 现代 的 分 析 程 序 生成 工具 使 用 LALR(1) 分 析 表 构造 算法 。 还 有 一 些 方法 比 构建 整 张 
LR(1) 状 态 表 后 再 合并 的 做 法 更 高 效 。 特 别 是 LR 算法 每 次 创建 一 个 新 状态 时 ，LALR 算法 可 检 
查 是 否 有 可 能 合并 ， 如 果 是 则 立即 合并 ; 这 意味 着 有 些 向 前 看 符号 集 需要 额外 的 工作 ， 以 传播 
那些 经 合并 步骤 添加 到 合并 后 状态 中 的 向 前 看 符号 。 

以 文法 Go 中 状态 qo 和 qs 的 合并 为 例 ， 在 即将 创建 状态 qo 时 会 出 现 合 并 状态 。 但 从 qs 出 
发 ， 沿 “* ”变迁 到 达 的 目标 状态 q 应 早已 存在 ，LALR 构造 算法 没有 理由 再 创建 一 个 qe 作为 
新 合并 状态 的 基础 。 因而 , 添加 到 合并 后 状态 qz 的 向 前 看 符号 集中 的 右 括号 必须 同时 传播 给 状 
AS qr， 然后 传播 给 状态 q 和 qs， 接 着 传播 到 状态 qe. qo 和 que 


7.8” 自 底 向 上 分 析 程 序 的 实现 


目前 尚未 出 现 与 递归 下 降 方式 等 价 的 自 底 向 上 分 析 程 序 的 手工 实现 。 这 类 分 析 程 序 通常 是 
一 个 表格 驱动 的 状态 机 ， 十 分 类 似 第 3 章 中 实现 一 个 扫描 程序 时 构造 的 FSA。 主 要 的 实现 决策 
是 如 何 高 效 地 对 状态 表 进 行 编码 ， 当 然 ， 还 存在 另外 一 些 方法 可 提升 性 能 。 

常见 的 LR 分 析 表 是 一 个 二 维 数组 , 一 维 记录 状态 编号 , 另 一 维 记录 栈 字 母 表 中 的 符号 ( 即 
所 有 终结 符 与 非 终 结 符 的 集合 UN)。 表 中 每 一 入 口 记 录 以 下 四 种 动作 之 一 ; 

CD 移 进 : 转 入 状态 so ` 

(2) 归 约 ;弹出 n SES: 再 将 非 终 结 符 P 压 入 栈 中 。 

(3) 接受 。 

《4) 错误 代码 e。 

移 进 动作 从 输入 串 中 读 入 一 个 单词 〈 即 取出 向 前 看 符号 后 ， 调 用 扫描 程序 并 以 返回 结果 代 
替 这 一 向 前 看 符号 )， 并 将 该 单词 与 状态 s 一 起 压 入 栈 中 。 归 约 动作 实际 上 有 两 步 ， 因 为 从 栈 
中 弹出 个 符号 后 ， 栈 顶 状 态 被 指派 “ 读 入 ”一 个 非 终 结 符 P; 因而 将 P 与 一 个 新 状态 压 入 栈 
中 ， 就 好 像 读 入 P 一 样 ， 尽 管 输入 串 并 未 受到 影响 。 接 受 动作 终止 分 析 过 程 。 

表 中 所 有 其 他 入 口 均 填 入 报错 动作 ， 报 告 输入 串 不 属于 该 语言 。 对 于 编译 程序 设计 人 员 而 
言 ， 一 种 好 的 做 法 是 尽力 产生 清晰 的 出 错 信息 ， 从 而 用 户 不 会 在 出 现 各 种 可 能 的 编码 错误 时 ， 
都 看 到 一 条 通用 且 没 有 什么 信息 含量 的 “出 现 语 法 错误 ”之 类 的 消息 。 

自 底 向 上 的 分 析 程 序 通 常 由 分 析 程 序 生 成 工具 自动 地 构造 ， 因 而 负责 解释 分 析 表 的 状态 机 
往往 是 分 析 程 序 框架 的 一 部 分 ， 基 本 上 无 需 进 行 大 的 修改 就 复制 到 每 一 个 生成 的 分 析 程 序 中 。 
代码 清单 7.1 给 出 了 一 个 典型 分 析 程 序 状态 机 的 Modula-2 代码 。 





代码 清单 7.{ LR 分 析 程序 的 分 析 解 释 程 序 


FROM Somewhere IMPORT 


MaxStateNo, MaxStack, NTToken, (* 常量 、 类 型 和 变量 *) 
Nextoken, Getoken, Error, GetTheTable; (* 过 程 *) 

TYPE 
ActionCode = (ReadStep, ApplyStep, Accept, ErrorOff); 

VAR 


StackTop: INTEGER; 

Done: BOOLEAN; 

theTable: ARRAY [0 .. MaxStateNo], NTToken OF RECORD 
theAction: ActionCode; 
Semantics: INTEGER; 
NewNT: NTToken; 

END; 

theStack: ARRAY [0 .. MaxStack] OF RECORD 
Symbol: NTToken; 
State: INTEGER 

END; 


PROCEDURE Parser; 
BEGIN 
StackTop :- 0; (* 初始 化 栈 *) 
: theStack[StackTop].State := 0; 
Done := FALSE; 
Get TheTable(theTable) ; (* 可 能 以 块 方式 从 磁盘 中 读 入 *) 
REPEAT 
WITH theTable[theStack[StackTop].State] [Nextoken] DO 
CASE theAction OF 


ReadStep: 
INC (StackTop) ; (* EARP... *) 
WITH theStack[StackTop] DO 
symbol := Nextoken; (* 压 入 新 单词 *) 
State := Semantics; (* 以 及 新 状态 *) 
Getoken (* 读 入 下 一 向 前 看 符号 *) 
END (* WITH *) 
ApplyStep: 


StackTop := StackTop - Semantics + 1; (* 弹出 产生 式 右 部 *) 
WITH theStack[StackTop] DO 
Symbol :- NewNT; (* 压 入 非 终结 符 与 状态 *) 
State := theTable[theStack[StackTop -'1] .State] [NewNT] . Semantics 
END (* WITH *) | 


Accept: (* 相当 于 发 现 目标 符号 位 于 栈 顶 *) 
Done := TRUE 
ErrorOff: (* 发 现 既 无 移 进 、 也 无 归 约 动作 *) 


Error(Semantics); 
Done :- TRUE 
END (* CASE *) 
END (* WITH *) 
UNTIL Done 
END Parser; 
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7.9 出 错 恢 复 


迄今 为 止 ， 我 们 的 分 析 程 序 在 输入 源 代 码 中 遇 到 一 个 语法 错误 时 ， 响 应 方式 均 为 “玉石 俱 
焚 ”， 意 即 放弃 编译 、 报 告 错误 、 然 后 退出 。 以 前 ， 这 一 响应 方式 受到 某 些 典型 用 户 的 指责 ， 
这 些 用 户 每 天 只 会 在 批 处 理 的 大 型 计算 机 上 尝试 一 次 或 两 次 编译 。 如 果 一 个 编译 程序 能 够 在 发 
现 错误 后 尝试 恰当 的 恢复 ， 并 尽 可 能 地 继续 分 析 输 入 源 程 序 ， 则 可 使 程序 员 有 机 会 在 重新 提交 
程序 再 次 编译 之 前 修改 多 个 错误 。 为 此 ， 研 究 人 员 已 在 最 常见 的 编码 错误 分 析 方面 开展 了 大 量 
工作 ， 这 种 分 析 不 仅 可 帮助 编译 程序 设计 人 员 提 高 从 语法 错误 中 恢复 的 概率 ， 而 且 有 利于 产生 
更 有 信息 含量 的 报错 信息 ， 从 而 用 户 更 容易 作出 相应 的 改正 。 

大 多 数 常见 的 语法 错误 是 由 以 下 三 种 形式 的 单个 单词 〈 或 单个 字符 ) 错误 造成 的 ， 丢失 的 
单词 、 多 余 的 单词 以 及 被 替代 的 单词 。 一 种 出 错 恢复 的 启发 式 方法 可 能 是 尝试 补充 一 个 丢失 的 
单词 ， 跳 过 一 个 多 余 的 单词 ， 以 及 用 一 个 更 合适 的 单词 取代 未 能 正确 分 析 的 单词 。 补 充 丢 失 的 
单词 时 最 应 格外 小 心 。 如 果 连 续 地 插入 单词 ， 分 析 程 序 可 能 只 会 在 错误 状态 中 循环 而 不 会 再 移 
进 任何 输入 ， 这 显然 不 是 一 种 正确 的 响应 方式 。 通常 如 果 插 入 单个 单词 后 仍 无 法 修正 问题 以 致 
成 功 地 分 析 输 入 串 ， 那 么 就 必须 放弃 单词 丢失 的 这 一 假设 。 | 

出 错 恢复 的 启发 式 方法 的 一 种 变形 是 丢弃 多 余 的 单词 ， 称 之 为 “应 急 模 式 ” 因为 该 方法 
强制 丢弃 单词 ， 直 至 过 到 一 个 可 识别 的 产生 式 边 界 ( 通 常 是 一 个 分 号 ); 栈 也 必须 刷新 ， 从 而 
分 析 程 序 可 恢复 到 Statementnist 产生 式 的 归 约 状态 。 这 种 恢复 策略 的 典型 做 法 是 在 发 现 错 
误 后 ， 先 跳 过 源 文件 中 某 些 〈 通 常 较 少 的 ) 部 分 ， 然 后 在 真正 出 错位 置 之 后 的 下 一 条 语句 恢复 
对 输入 串 的 分 析 。 

最 复杂 的 出 错 恢 复 技术 是 由 Pennello 等 人 提出 的 所 谓 “ 向 前 移动 "技术 [Pennello&DeRemer, 
1978]。 文 法 中 添加 了 错误 产生 式 , 分 析 程 序 生成 工具 创建 出 错 恢复 状态 , 在 这 些 状态 尝试 移 进 、 
丢弃 单词 和 归 约 产生 式 ， 直 至 出 现 某 些 可 以 继续 工作 的 东西 

随 着 个 人 交互 式 工作 站 以 及 即时 响应 时 间 的 出 现 ， 潮 流 不 再 是 复杂 的 出 错 恢 复 技术 ， 而 是 
以 一 种 玉石 俱 焚 的 终止 方式 ， 在 程序 编辑 器 中 将 用 户 定位 到 发 现 错误 的 单词 上 。 超 快 的 编译 速 
度 使 得 这 一 技术 相当 实用 ， 因 为 用 户 可 要 求 再 次 编译 并 在 很 短 时 间 内 得 到 下 一 个 错误 报告 ， 时 
间 上 不 亚 于 平常 的 在 程序 清单 中 查找 一 条 嵌入 的 出 错 消 息 。 

应 注意 ， 规 范 LR( 人 分 析 表 的 构造 会 得 到 最 快 的 语法 错误 检测 。LALR (以 及 SLR 的 更 大 
扩展 ) 分 析 表 导致 分 析 程 序 在 检测 出 一 个 错误 之 前 ， 可 能 经 过 若干 归 约 步 后 前 进 若 干 状态 。 然 
而 在 正常 情况 下 ， 这 一 语法 错误 在 移 进 任何 输入 符号 之 前 就 会 被 发 现 ， 对 于 LALR 而 言 ， 这 总 
是 成 立 的 。 在 这 三 种 构造 方式 中 ， 分 析 程 序 均 可 正确 地 检测 有 错 的 输入 串 ， 惟 一 区 别 在 于 这 些 
错误 有 多 快 被 发 现 。 


7.10 LR 分 析 程序 中 的 属性 求 值 


与 自 项 向 下 分 析 相 比 ， 在 自 底 向 上 分 析 中 直观 地 观察 属性 值 的 流向 是 很 困难 的 。 如 第 5 章 
所 述 ， 在 分 析 过 程 中 仅 可 对 综合 属性 和 从 左 到 右 的 继承 属性 进行 求 值 。 属 性 值 可 添加 到 PDA 
的 栈 字 母 表 中 ， 或 可 定义 男 一 个 栈 以 保存 这 些 属性 值 ， 它 们 将 在 栈 帧 中 分 配 空间 ， 与 块 结构 语 
言 中 编译 得 到 的 局 部 变量 管理 代码 十 分 类 似 。 
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属性 求 值 通常 必须 发 生 在 LR 分 析 程 序 状 态 机 的 归 约 步 。 此 时 ， 综 合 属性 可 直接 从 正 被 归 
约 的 产生 式 右 部 的 终结 符 和 非 终结 符 的 综合 属性 计算 得 到 。 那 些 沿 分 析 树 向 上 传递 的 综合 属 
性 ， 可 存储 在 一 个 为 当前 压 入 分 析 程 序 栈 中 的 非 终 结 符 而 新 建 的 栈 帧 中 。 

继承 属性 的 实现 更 加 困难 ， 因 为 一 般 不 知道 它们 继承 了 哪 一 个 非 终结 符 。 在 自 顶 向 下 的 分 
析 中 ， 继 承 属 性 在 分 析 树 中 的 父 结 点 组 装 ， 但 在 自 底 向 上 的 分 析 中 ， 该 结 点 尚未 存在 。 在 非 终 
结 符 之 间 传 递 从 左 到 右 继承 属性 的 惟一 实用 方法 也 许 是 构造 一 个 数据 包 ， 其 中 的 字段 包含 了 所 
有 非 终结 符 的 所 有 可 能 的 继承 属性 ， 然 后 在 构建 分 析 栈 时 将 该 数据 包 沿 分 析 栈 传播 。 每 一 个 归 
约 步 合 成 的 新 属性 值 均 在 该 数据 包 中 占有 一 个 位 置 ， 归 约 步 将 一 个 新 的 值 放 入 该 数据 包 ， 然 后 
才 将 该 值 的 一 个 新 副本 沿 栈 向 上 传递 给 下 一 终结 符 或 非 终 结 符 。 那些 不 影响 该 数据 包 中 任何 属 
性 的 单词 和 非 终结 符 ， 只 需 原 封 不 动 地 传递 一 个 副本 。 该 数据 包 一 般 不 会 太 大 ， 因 为 仅 有 少数 
属性 〈 典 型 情况 是 只 有 符号 表 ) 需 按 此 方式 传播 。 图 7-4 演示 了 数据 包 中 仅 含 单 个 从 左 到 右 属 
性 的 处 理 过 程 。 


A xis Txou 一 a Blxin Txremp a [ Xour = 1 + Xtemp ] 


B laxis Trout 一 b [Xon = 2 + xin] 


333 c 数据 包 的 值 
B: a b 
3 35 
Bis . a B H% B >b 
335 5 
Ti . a Ba Bik a 
3 6 
T: e À HZ AS aBa 


图 7-4 自 底 向 上 分 析 中 的 属性 求 什 


大 多 数 表 格 驱 动 的 分 析 程 序 将 全 部 语义 动作 收集 到 一 个 大 的 cASE 语句 中 ， 由 存储 在 分 析 
表 中 的 编号 作为 不 同情 况 的 索引 。 当 模块 化 设计 要 求 语义 动作 有 各 自 独立 的 过 程 时 ，cASE i 
名 的 项 目 将 是 带 适 当 参 数 的 过 程 调 用 。 定 义 编译 程序 语义 的 属性 文法 相对 新 奇 ， 且 在 自 底 向 上 
分 析 程 序 中 正确 处 理 任意 属性 信息 流 有 困难 ， 这 些 均 限制 了 基于 属性 文法 的 编译 程序 生成 工具 
的 可 用 性 。 应 用 最 广泛 的 分 析 程 序 生成 工具 是 YACC， 它 将 所 有 语义 动作 降级 为 嵌入 在 文法 中 
的 C 语言 代码 。 


最 大 一 类 可 确定 地 分 析 的 语言 须 使 用 自 底 向 上 的 分 析 技 术 。 与 自 顶 向 下 分 析 〈 从 目标 符号 开始 ， 自 
顶 向 下 构造 分 析 树 ， 直 至 到 达 分 析 树 的 边缘 ， 从 而 推导 出 语言 中 一 个 句子 ) 相 比 ， 自 底 向 上 分 析 从 底部 
(边缘 或 包子) 构建 分 析 树 ， 一 路 向 上 构建 到 分 析 树 的 根 。 

自 底 向 上 分 析 使 用 一 个 下 推 列表 〈 栈 )， 它 将 输入 符号 压 入 栈 中 〈 移 进 )， 直 至 栈 顶 出 现 一 个 句柄 ; 
句柄 是 一 个 子 串 ， 它 与 用 于 推导 串 的 文法 中 的 某 一 重 写 规则 的 右 部 匹配 。 一 旦 在 自 底 向 上 分 析 程 序 所 用 
的 栈 的 顶部 出 现 一 个 句柄 ， 就 立即 归 约 该 句柄 ， 即 用 该 重 写 规则 左 部 的 非 终结 符 取而代之 。 只 要 未 发 现 
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错误 ， 自 底 向 上 分 析 过 程 就 将 继续 ， 直 至 扫描 了 整个 输入 串 ， 并 且 栈 中 仅 留 有 一 个 目标 符号 。 

高 德 纳 在 1965 年 提出 的 LR 分 析 方法 是 最 通用 的 。 一 个 LR( 旭 分 析 程 序 从 左 到 右 扫 描 其 输入 串 ， 并 
生成 一 个 逆序 的 最 右 推导 ， 在 进行 分 析 的 决策 时 ， 它 最 多 只 需 & 个 向 前 看 符号 。 遗 憾 的 是 ， 事 实证 明 对 
于 定义 一 种 实用 程序 设计 语言 的 文法 而 言 ， 在 LR 分 析 中 产生 的 分 析 表 实在 太 大 了 。DeRemer 在 1969 年 
提出 的 SLR (简单 LR) 分 析 程序 解决 了 这 一 问题 ， 他 注意 到 有 时 可 以 合并 LR 分 析 表 中 的 行 。Korenjak 
在 1969 年 提出 的 LALR (向 前 看 LR) 分 析 技 术 以 另 一 方式 解决 了 LR 分 析 表 过 大 的 问题 。 本 章 详细 介绍 
了 SLR 和 LALR 两 种 分 析 技 术 ， 最 后 讨论 了 一 个 LR 分 析 程 序 中 的 属性 求 值 问题 。 





apply step〈 应 用 步 〈 妇 约 步 )) ” 自 底 向 上 分 析 程 序 的 一 个 操作 步骤 ， 通 过 应 用 文法 中 的 一 条 重 写 规则 ， 
将 栈 顶 的 句柄 归 约 为 一 个 非 终结 符 。 
bottom-up parsing〈 自 底 向 上 分 析 ) ”在 一 个 上 下 文 无 关 文 法 的 分 析 程 序 中 ， 按 照 逆序 的 最 右 规范 推导 
构造 分 析 树 ， 从 语言 中 的 一 个 串 开始 ， 将 它 归 约 为 目标 符号 。 
handle (A145) ” 自 底 向 上 分 析 程 序 栈 顶 的 、 由 终结 符 与 非 终结 符 组 成 的 串 ， 与 文法 中 的 重 写 规则 ( 产 
ER) 的 右 部 匹配 。 
item (AB) — 文法 中 一 条 重 写 规则 的 副本 ， 对 该 副本 的 改动 是 添加 了 一 个 分 隔 符 ， 表 示 自 底 向 上 分 析 
程序 构造 中 FSA 的 读 磁 头 。 
closure〔〈 闭 包 运 算 ) ”对 项 目 列表 中 那些 分 隔 符 恰好 在 一 个 非 终结 符 左边 的 项 目 ， 将 文法 中 该 非 终结 
符 的 所 有 产生 式 添加 到 项 目 列表 中 。 如 果 A we。 Bv 是 项 目 列表 中 的 一 个 项 目 ， 则 闭 包 运 算 将 添 
加 形 如 B ew 的 项 目 ， 其 中 B 一 w 是 文法 中 的 一 条 产生 式 。 
complete item (完成 项 目 ) MH 中 分 隔 符 是 最 右 端的 符号 。 
kernel (4%) ”构造 LR( 昌 分 析 程 序 的 状态 时 ， 将 分 隔 符 向 前 移动 一 个 符号 后 、 但 不 执行 闭 包 运算 就 
得 到 的 项 目 。 仪 比较 两 个 项 目 集 的 核 ， 即 可 确定 它们 是 否 相 同 。 
LALR( CLALR(K)3:3&) BH Lookahead LR(A) 文 法 ， 其 中 合并 后 状态 的 向 前 看 符号 集 是 所 有 被 合并 状态 
的 向 前 看 符号 集 的 并 。 
LR(K) grammar 《LR( 罗 文法 ) ”该 文法 的 分 析 程 序 从 左 到 右 扫描 输入 串 ， 按 最 右 规范 推导 的 逆序 遍历 ， 
最 多 在 输入 流 中 向 前 看 个 符号 即 可 完成 确定 的 分 析 。 
LR( parser (LR( 局 分析 程序 〉 ”根据 一 个 LR(h) 文 法 构造 的 分 析 程 序 。 
LR parsing (LR 分 析 ) ”参阅 bottom-up parsing 条 目 。 
merged state (合并 后 状态 ) LALR(AD 分 析 程 序 构造 过 程 中 的 一 个 状态 ， 将 两 个 仅 向 前 看 符号 集 不 同 的 
LR(K) 状 态 组 合 其 项 目 后 得 到 。 
panic mode 〈 应 急 模式 ) ”一 种 出 错 恢复 的 启发 式 方法 ， 从 输入 流 中 丢弃 单词 ， 直 至 找到 一 个 可 识别 的 
重 写 规 则 边界 。 
predictive parser 〈 预 测 分 析 程 序 ) ”一 种 自 顶 向 下 的 分 析 程 序 。 
read step (RAZ) ” 自 底 向 上 分 析 程序 的 一 个 操作 步骤 ， 读 入 下 一 输入 符号 ， 并 将 它 移 进 〈 压 入 ) BW. 
reduce step 〈 归 约 步 ) ”一 步 应 用 产生 式 的 动作 。 
shift step 〈 移 进步 ) ” 即 读 入 步 。 
SLR(K) (SLR( 有 文法 ) ”可 由 SLR(D 分 析 程 序 识 别 的 语言 的 文法 ， 其 构造 忽略 了 LR( 间 构造 过 程 中 的 向 
前 看 符号 集 ， 并 使 用 Follow4 集 解析 “ 移 进 一 归 约 ”冲突 。 
top-down parser ( 自 顶 向 下 分 析 程 序 ) ”一 个 上 下 文 无 关 文 法 的 分 析 程 序 ， 按 最 左 规范 推导 构造 分 析 树 ; 
从 目标 符号 出 发 ， 将 它 扩 展 为 语言 中 的 串 ， 即 输入 串 。 又 称 预 测 分 析 程序 。 
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WS 7.6 节 给 出 的 文法 G4 定义 了 语言 L， 使 用 该 文法 给 出 : 

Ca) 属于 L 的 某 个 串 的 最 右 推导 。 

(b) 一 个 项 目的 例子 。 

(c) 使 用 SLR 算法 构造 的 分 析 程 序 状态 ， 并 指出 存在 “ 移 进 一 归 约 ”冲突 的 所 有 状态 。 
(d) 使 用 LR 算法 构造 的 分 析 程序 状态 。 

(e) ERER O 小 题 和 (D. 小 题 的 状态 表 。 


.请 指出 : 


(a) 练习 1 Cc) 小 题 的 状态 表 中 的 核 。 
(b) #7-5 HK. 


.考虑 文法 ( { a,b }, {S,A}, PS )， 其 中 P 卫 是 以 下 产生 式 集合 ; 


S—aSIbASIa 
A—abAlatb 

判断 该 文法 是 否 : 

(a) 存在 某 个 k， 使 得 它 是 LR(A) 的 (车 回答 “是 ” 则 请 指出 上 的 值 )， 或 
(b)》 存 在 某 个 k， 使 得 它 是 SLR( 有 DD 的， 或 

(c) 存在 某 个 k， 使 得 它 是 LALR(A) 的 ， 或 

(d) FERA k, ERCE LLOR. 


说 明 对 于 以 下 产生 式 定义 的 文法 ， 存 在 某 个 k， 使 得 该 文法 是 LALR(K) 的 ， 并 请 指出 & 的 值 。 


So AaldAblcbldca 
A—c 


- 判断 练习 4 的 文法 是 否 对 于 同样 的 值 《 也 是 SLRQOÉU: 如 果 不 是 ， 则 指出 其 中 至 少 有 一 个 “ 移 进 一 归 


约 ”冲突 状态 ， 该 冲突 无 法 用 Follow, REI. 


找 出 一 个 是 LALR(A) 的 、 但 不 是 LL(A) 的 文法 例子 ， 从 而 说 明 并 非 所 有 LALR( 昌 文法 都 是 LLOR. 
， 说 明 并 非 所 有 LL(A) 文 法 都 是 LALR(AD 的 。 

.说 明 并 非 所 有 LR(0) 文 法 都 是 SLR(0) 的 。 

， 说 明 任 一 LL(A) 文 法 也 是 一 个 LROOXCI 


复习 小 测验 





指出 下 列 陈述 是 否 正确 。 


STAM WH 一 


. 在 LR 分 析 中 ， 一 个 应 用 步 与 一 个 归 约 步 是 相同 的 。 

.在 一 个 LR 分 析 过 程 中 ， 如 果 下 一 分 析 符 号 被 读 入 并 移 进 ， 那 么 被 读 入 的 输入 符号 将 从 栈 顶 弹出 。 
.并非 每 一 个 LALR(A) 文 法 都 是 一 个 SLR(b 文 法 。 

.并非 所 有 SLR(A) 文 法 都 是 LALR( 有 AD 文法 。 

.一 个 LR(h) 文 法 是 一 个 上 下 文 无 关 文法 。 

， 每 一 个 LL() 文 法 都 是 一 个 LROIGE. 

.以 下 产生 式 的 文法 是 LR(0) 的 : 


AAx Ax 


.以 下 产生 式 的 文法 是 LRODI: 


AAaAb A-E 


:一 个 文法 是 LR( 旭 的 ， 如 果 从 右 到 左 扫 描 输 入 串 ， 并 在 句柄 右 端 之 外 前 进 最 多 不 超过 大 个 符号 ， 即 可 


在 最 右 推导 中 确定 每 一 右 句 型 的 句柄 ， 并 找 出 以 哪 一 个 非 终 结 符 取代 句柄 。 
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编译 程序 实验 项 目 


1. A Itty Bitty Modula 语言 的 文法 构造 一 个 SLR(1) 分 析 表 ， 暂 时 不 理会 语义 动作 。 使 用 类 似 于 代码 清单 
7.1 的 状态 机 ， 用 一 些 以 Itty Bitty Modula 语言 编写 的 小 程序 测试 你 的 分 析 程 序 。 请 验证 语法 上 不 正确 
的 程序 会 被 拒绝 。 

2. 在 第 5、6 章 开发 的 属性 文法 基础 上 ， 为 你 的 自 底 向 上 分 析 程 序 添加 语义 。 

3. 设计 一 个 LALR(O 分 析 程 序 生成 工具 。 编 写 一 个 LL(1) 属 性 文法 作为 其 输入 ， 并 在 TAG 编译 程序 上 编 
译 该 文法 ， 然 后 在 你 的 分 析 程 序 生成 工具 上 编译 该 文法 。 
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第 8 章 变换 属性 文法 


TAXE: 

e 介绍 树 变换 文法 

e 探讨 使 用 树 文 法 将 抽象 语法 树 变换 为 不 同形 状 的 树 

e 区 别 翻译 文法 与 变换 文法 

。 介绍 变换 属性 文法 (TAG )， 它 既是 一 个 树 文法 ， 也 是 一 个 属性 文法 

e 介绍 一 种 确定 属性 求 值 次 序 的 简化 方法 

e 指出 如 何 将 编译 程序 前 端的 串 文 法 链接 到 定义 优化 与 代码 生成 的 树 文法 
e 探讨 基于 变换 的 代码 优化 

e. 展示 如 何 将 属性 文法 用 于 数据 流 分 析 

。 综述 实用 的 变换 优化 


8.1 简介 


尽管 第 1 章 引 入 了 抽象 语法 树 CASTO. 作为 被 编译 的 输入 源 程序 的 语法 结构 概念 表示 ， 我 
们 还 应 注意 到 编译 程序 通常 并 不 真正 地 构建 一 个 AST。 在 本 章 , 我 们 主要 考虑 那些 希望 在 内 存 
中 构造 出 表示 AST 的 数据 结构 的 情况 。 


8.2 程序 的 树 表示 


一 棵 抽象 语法 树 正 如 其 名 所 示 ， 它 从 源 程序 中 抽取 的 只 是 语法 结构 ， 既 没有 保留 标识 符 或 
关键 字 的 拼写 ， 也 没有 存放 空格 、 换 行 符 、 注 释 等 。 因 而 在 图 8-1 中 ，Modula-2 语言 的 
IF-THEN-ELSE-END 语句 的 抽象 表示 与 Pascal HSH if-then-else 语句 完全 相同 (惟一 
例外 是 子 树 的 形式 略 有 不 同 )。 该 结 点 连接 了 三 个 程序 片段 作为 其 子 树 ， 第 一 棵 子 树 表 示 待 求 
值 的 布尔 表达 式 ; 第 二 棵 子 树 表示 所 求 值 的 表达 式 为 真 时 执行 的 语句 或 语句 序列 ， 第 三 棵 子 树 
表示 表达 式 为 假 时 执行 的 另 一 语 名 序列。 当然 ， 这 两 棵 语句 子 树 本 身 既 可 以 是 条 件 语句 结 点 ， 
也 可 以 是 赋值 语句 或 其 他 语句 。 

AST 与 分 析 树 在 两 个 重要 方面 有 所 区 别 。 首 先 ， 如 前 所 述 ， 保 留 字 、 标 识 符 的 拼写 以 及 常 
量 不 复 存 在 ， 只 剩 下 足以 作为 树 结构 中 结 点 标签 的 信息 。 在 图 8-1 的 表示 中 ， 消 除了 保留 字 
THEN、ELSE 和 END， 还 有 标点 符号 以 及 标识 符 a、b 和 anysubroutine 的 拼写 。 

其 次 且 更 重要 的 是 ， 消 除了 不 含 任何 语义 动作 的 文法 非 终 结 符 。 图 8-1 所 示例 子 中 ， 并 未 
引用 非 终 结 符 Expression 或 Factor, 尽管 在 分 析 任何 表达 式 时 肯定 会 涉及 它们 。 非 终结 符 
Term 仅 在 标签 为 “+” 的 结 点 有 所 表示 ， 而 这 只 是 因为 它 产 生 加 法 的 语义 动作 。 一 棵 AST (X 
仅 抽象 了 保持 程序 语义 的 那 部 分 语法 结构 。 一 个 树 遍 历 自动 机 可 遍历 AST， 并 在 访问 每 一 结 点 
时 生成 代码 〈 典 型 的 是 后 序 遍 历 ， 但 也 有 大 量 的 例外 )， 生 成 的 代码 与 第 6 章 介 绍 的 递归 下 降 
属性 文法 所 产生 的 代码 相同 。 
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IF a < b THEN 

a := b+ 5 
ELSE 

anysubroutine(4, b) 
END 





图 8-1 一 个 程序 片段 的 树 表示 


如 果 我 们 的 惟一 目标 是 将 分 析 过 程 与 代码 生成 过 程 分 离 ， 那 么 AST 不 失 为 中 间 代 码 的 一 
种 合理 表示 ;一旦 将 意义 重大 的 代码 优化 映 入 眼帘 ，AST 就 成 为 不 可 或 缺 的 ;这 是 因为 许多 优 
化 工作 的 最 简单 执行 方式 就 是 对 AST 进行 变换 〈 整 形 )。 
8.3” 树 变换 文法 

鉴于 本 书 始终 如 一 地 强调 文法 在 编译 程序 设计 中 的 重要 性 ， 由 文法 作为 定义 树 变换 的 最 简 
单方 式 也 就 不 足 为 奇 ， 这 类 文法 称 为 树 变 换文 法 “TTG)。TTG 是 更 大 的 树 文法 类 集中 的 一 个 
子 集 。 

树 文法 与 我 们 迄今 所 见 文法 的 区 别 在 于 ， 其 输入 字母 表 由 树 结 点 及 其 连接 组 成 ， 而 不 是 
ASCI 字符 或 扫描 一 个 线性 串 得 到 的 单词 。 由 于 树 是 一 种 二 维 结构 ， 因 此 树 文法 必须 识别 结 点 的 
结构 , 而 不 仅 是 单词 的 线性 串 , 尽管 书写 文法 的 产生 式 时 , RUBIA I JI SUE RU C RAE. 


-> Qos 


Expn Expn Expn Expn 
Expn Expn Expn Expn 


> ©) — Co 


Expn- <+ Expn Expn> 


Lilli 
^ 
^ 
I 
E 
[e] 
A 
ue} 
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图 8-2 表达 式 树 文法 的 片段 ， 同 时 给 出 了 其 图 形 表示 和 文本 表示 


图 8-2 展示 了 一 个 识别 表达 式 树 的 树 文 法 片段 。 请 注意 ， 该 文法 无 须 利 用 圆 括号 或 中 间 非 
终结 符 即 可 无 二 义 地 展示 运算 符 层 次 ， 这 是 树 结构 的 固有 特性 。 根 据 这 一 文法 ， 一 个 表达 式 要 
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么 由 一 个 标识 符 或 数字 的 叶 结 点 组 成 ， 要 么 由 一 个 简单 的 运算 符 结 点 以 及 两 棵 表达 式 子 树 组 
成 。 图 8-3 展示 了 该 文法 生成 的 一 个 表达 式 。 


a-(b+5)+3 


<- «ID» <+ <+ «ID» <NUM> > «NUM» 


图 8-3 图 8-2 文 法 生成 的 表达 式 树 


在 编译 程序 构造 中 , 只 是 识别 ( 即 分 析 》 由 一 个 树 文 法 生成 的 抽象 语法 树 并 不 会 特别 有 用 ， 
我 们 还 希望 能 将 它们 变换 为 不 同形 状 的 树 。 考 虑 图 8-3 中 的 表达 式 树 ， 并 假设 编译 程序 发 现 标 
识 符 b 被 声明 为 常量 4， 则 可 将 ID 结 点 变换 为 SUM 结 点 以 优化 该 树 ; 然后 在 计算 正确 的 新 常 
量 值 后 ， 用 单个 NUM 叶 结 点 取代 位 于 两 个 CUM 结 点 之 上 的 任 一 运算 符 结 点 。 图 8-4 演示 了 
这 些 变换 步骤 。 图 8-5 展示 了 一 个 用 于 常量 折 疮 的 简单 TTG， MARES, BARE 
常量 表达 式 进 行 求 值 。 





图 8-4 通过 变换 优化 表达 式 树 
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\ [ 当 ID 为 常量 时 ] 
> (0 29 


Expn > «iD» => «NUM» 
— «t «NUM» <NUM>> => «NUM» 
一 <-<NUM> «NUM»» > «NUM» 
—«* «NUM» «NUM»» = «NUM» 
—«-«NUM» <NUM>> = «NUM» 


图 8-5 HIT SE RBH TBR 


变换 文法 了 是 一 个 上 下 文 无 关 文法 ， 且 其 中 每 一 产生 式 均 有 两 个 右 部 ， 这 两 个 右 部 包含 了 
相同 的 非 终结 符 引 用 ， 尽 管 这 些 引用 的 次 序 不 一 定 相同 。 每 一 产生 式 的 第 二 右 部 由 它 左 边 的 双 
箭头 “一 ”指明 ， 双 箭头 将 它 与 第 一 右 部 分 隔 开 。 变 换文 法 中 的 一 条 产生 式 抽象 地 看 起 来 有 些 
类 似 于 如 下 的 形式 : 


nonterminal— "first" rightpart > "second" rightpart 


如 果 删 除 所 有 的 第 二 右 部 ， 则 所 剩 下 的 就 是 一 个 普通 的 上 下 文 无 关 文 法 ， 它 所 定义 的 语言 
称 为 “输入 语言 "如果 删除 所 有 的 第 一 右 部 ， 并 将 双 箭 头 改 为 单 箭头 ， 则 所 剩 下 的 仍 是 一 个 
普通 的 上 下 文 无 关 文法 ， 它 所 定义 的 语言 称 为 “输出 语言 "。 当 为 识别 输入 语言 而 构造 的 分 析 
程序 应 用 文法 中 的 某 一 产生 式 时 ， 与 该 产生 式 右 部 匹配 的 子 树 将 被 输出 语言 中 对 应 的 同一 产生 
式 的 右 部 取代 ， 从 而 将 输入 语言 变换 为 输出 语言 。 

第 一 右 部 有 时 也 称 “匹配 模板 ”第 二 右 部 则 称 “ 生 成 器 模板 ”。 我 们 要 求 两 个 右 部 或 模板 
的 非 终 结 符 之 间 有 一 一 对 应 关系 ， 从 而 分 析 程 序 递 轨 地 遍历 AST 时 ， 每 一 非 终结 符 在 输出 语 
言 中 都 占有 一 个 位 置 。 输 入 语言 和 输出 语言 中 的 终结 符 则 无 须 有 对 应 关系 。 

不 难看 出 ， 代 码 生 成 程序 属性 文法 的 语义 动作 很 容易 写成 变换 文法 的 形式 ， 其 中 第 二 右 部 
编码 了 本 书 表示 法 中 以 方 括号 括 住 的 终结 符 。 实 际 上 ， 如 果 我 们 没有 非 局 部 优化 的 需求 ， 这 已 
是 一 种 自然 且 有 效 的 表示 法 。 然 而 我 们 并 不 打算 这 样 做 ,而 是 直接 去 感受 树 变换 属性 文法 的 全 
部 能 力 。 

将 属性 文法 用 于 定义 一 个 编译 程序 如 何 通 过 对 树 表示 的 程序 进行 变换 以 实现 优化 ， 其 原创 
性 工作 由 慕尼黑 技术 大 学 的 Bickel, Ganzinger. Giegerich. Ripken 和 Wilhelm 等 人 在 1975 年 
开发 编译 程序 生成 工具 MUG2 时 完成 [Madsen, 1975]。 时 至 1983 年 ，MUG2 已 发 展 为 一 个 基 
于 属性 文法 的 完整 编译 程序 生成 工具 ， 它 使 用 抽象 语法 树 和 带 属性 的 树 变换 来 处 理 属性 求 值 问 
题 。 在 MUG2 中 ,通过 由 文法 指定 的 变换 ,用 附加 在 代码 树 上 的 信息 标识 一 个 属性 ， 这 些 信息 
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实际 上 是 程序 树 中 的 特殊 叶 结 点 , 而 不 是 高 德 纳 所 理解 的 属性 [Knuth, 1968]. 在 美国 , Burroughs 
公司 的 工 F Payton 于 1982 年 开发 了 一 个 语法 和 语义 分 析 与 生成 系统 ， 采 用 树 变换 文法 将 输入 
文法 树 映 射 为 输出 文法 树 ;，Payton 的 系统 将 一 个 TTG 翻译 为 一 个 执行 翻译 并 生成 相应 求 值 程 
序 的 属性 文法 [Payton, 1982]. 
8.3.1 非 生成 的 文法 

尽管 一 个 完整 定义 的 变换 文法 在 生成 一 个 输入 语言 的 同时 ,还 生成 一 个 可 能 截然 不 同 的 输 
出 语言 ， 但 一 个 高 效 的 编译 程序 在 无 须 执 行 变换 时 《 亦 即 第 二 右 部 与 第 一 右 部 相同 时 )， 不 应 
将 大 量 时 间 浪 费 在 树 的 遍历 和 变换 中 。 因 而 我 们 区 别 “ 翻 译文 法 ”和 “变换 文法 ”这 两 个 概念 : 
翻译 文法 完整 地 生成 输入 语言 和 输出 语言 ， 而 变换 文法 中 输入 语言 和 输出 语言 本 质 上 是 相同 的 
语言 。 

翻译 文法 和 变换 文法 均 有 两 个 右 部 的 集合 ， 但 变换 文法 (TO 中 省 略 了 将 一 棵 树 变 换 为 
自身 的 产生 式 。 图 8-5 所 示 是 一 个 TITG， 而 不 是 一 个 翻译 文法 ， 因 为 它 定义 了 如 何 变换 两 个 常 
量 之 上 的 运算 符 结 点 ， 而 不 是 指定 如 何 变换 一 个 或 多 个 标识 符 之 上 的 运算 符 结 点 ， 也 未 给 出 令 
一 个 标识 符 保持 不 变 的 情况 。 图 8-4 中 的 变换 似乎 是 以 一 种 投机 的 方式 应 用 变换 规则 ， 只 要 有 
一 个 模板 匹配 即 可 ， 早 期 根据 TIG 构造 的 研究 性 编译 程序 也 确实 如 此 。 我 们 将 基于 构造 编译 
程序 时 所 依据 的 变换 属性 文法 ， 使 用 一 种 确定 的 算法 查找 树 变换 的 机 会 。 

变换 属性 文法 (TAG) 是 一 个 树 变换 文法 ， 进 而 它 也 是 一 个 属性 文法 。 这 意味 着 文法 中 每 
一 非 终 结 符 均 定义 了 0 个 或 多 个 属性 。 由 于 综合 属性 和 继承 属性 均 可 能 出 现 ， 属 性 求 值 次 序 对 
文法 强加 了 一 些 限制 ; 游离 的 非 终结 符 不 可 沿 树 向 上 或 向 下 传递 任何 属性 ,因而 , 我 们 要 求 TAG 
虽然 不 必 是 完全 生成 的 ， 但 它们 必须 生成 一 棵 树 ， 该 树 与 完整 的 程序 树 具 有 相同 的 根 结 点 ， 只 
是 整 棵 子 树 消失 了 。TAG 无 法 生成 一 棵 非 连通 的 树 , 也 无 法 生成 从 根 结 点 不 可 达 的 任何 树 片段 。 
因而 ， 一 个 树 变换 属性 文法 是 一 个 六 元 组 (OENQBS,AQE) Hp: 

EL ”由 树 的 结 点 名 《终结 符 ) 组 成 的 字母 表 。 

非 终结 符 的 集合 。 
产生 式 的 集合 。 
目标 符号 ， 与 树 的 根 结 点 相关 联 。 
属性 的 集合 ， 满 足 每 一 属性 恰好 与 一 个 非 终 结 符 相关 联 ， 并 被 指定 为 要 么 是 一 个 
综合 属性 ， 要 么 是 一 个 继承 属性 。 

E 断言 的 集合 ， 这 些 断 言 限制 和 定义 了 每 一 产生 式 中 属性 的 值 。 
TAG 中 的 每 一 产生 式 包括 五 部 分 ， 
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其 中 : 
n ”是 一 个 非 终结 符 ， 集 合 N 中 的 成 员 。 
t, b 是 树 模 板 ， 在 文本 中 写 为 itte" etu ">""%" e， 其 中 
i ”是 一 个 (可 选 的 ) 标识 符 ， 用 于 命名 该 子 树 。 
o ”是 结 点 名 集合 Z 的 一 个 成 员 。 
t ”是 在 同一 表示 中 的 另 一 个 子 树 模板 。 
e ”是 一 个 (可 选 的 ) 树 “ 装 饰 ”， 稍 后 将 给 出 其 定义 。 
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文字 符号 “:” 和 “%” 用 于 指明 与 它们 关联 的 可 选 部 分 是 否 出现 ; 文字 符号 “<” 
和 “>” 的 作用 类 似 于 圆 括号 ， 作 为 树 结 点 与 其 子 树 之 间 的 分 界 。 
sy 9 是 括 在 方 括号 中 的 语义 动作 序列 ， 以 及 非 终结 符 的 引用 〈 以 它们 所 应 用 的 子 树 名 
作为 前 缀 ) 。 
附录 B 给 出 了 本 书 所 用 TAG 的 完整 文法 定义 ， 目 前 我 们 主要 关注 它们 的 通用 形式 。 
8.3.2 — TAG 例子 
下 面 以 一 个 小 型 TAG 为 例 ， 考 察 如 何 基 于 常量 表达 式 的 前 枝 完成 对 一 个 表达 式 树 的 变换 。 
该 例子 将 大 致 按 图 8-5 组 织 ， 但 新 添加 了 属性 断言 并 完善 了 产生 式 ， 从 而 使 得 该 文法 是 完全 生 
成 的 ， 如 代码 清单 8.1 所 示 。 这 里 假设 所 有 标识 符 均 定 义 在 一 个 继承 的 符号 表 中 。 


代码 清单 8.1 一 个 简单 的 常量 折 生 TAG 
Expn lsymbol Tiscon Tvalue 





«Plus left rite> 
rite: Expn lsymbol Tiscon2 Tvalue2 
left: Expn lsymbol Tisconi Tvaluel 
([isconl = true; iscon2 = false; iscon = false] left: Xform lvaluei 
|[iscon2 = true; isconl = false; iscon = false] rite: Xform lvalue2 
|{isconl = iscon2; iscon = isconi; value = valuel + value2]) 


— «Minus left rite> 
rite: Expn lsymbol Tiscon2 Tvalue2 
left: Expn Vsymbol Tisconi Tvaluel 
([isconl = true; iscon2 = false; iscon = false] left: Xform lvaluei 
|[iscon2 = true; isconl = false; iscon = false] rite: Xform lvalue2 
|[isconl = iscon2; iscon = isconl; value = valuel - value2]) 


4<Star left rite» 
rite: Expn lsymbol Tiscon2 Tvalue2 
left: Expn Jsymbol Tisconi Tvaluei 
([isconl = true; iscon2 = false; iscon = false] left: Xform lvaluei 
|[iscon2 = true; isconl = false; iscon = false] rite: Xform lvalue2 
|[isconl = iscon2; iscon = isconl; value = valuel * value2]) 


+ <Divd left rite» 
rite: Expn lsymbol Tiscon2 Tvalue2 
left: Expn lsymbol Tisconi Tvaluel 
([isconl = true; iscon2 = false; iscon = false] left: Xform lvaluei 
| [iscon2 = true; isconl = false; iscon = false] rite: Xform lvalue2 
| [iscon1 = iscon2; iscon = iscon1; value = valuel / value2]) 


— <ID>tname 
[from lsymbol iname Tiscon Tvalue] 


— «NUM» $value 
[iscon = true] ; 


Xform lvalue 
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— «Plus left rite» | «Minus left rite» | «Star left rite» | «Divd left rite» 


> <NUM>%value 

一 <ID>%name 

> <NUM>%value 

一 <NUM>%value ; { 此 处 保持 不 变 } 


文法 首先 遍历 表达 式 树 ， 以 找 出 常量 子 树 。 我 们 采取 的 做 法 是 向 上 携带 一 个 综合 属性 表示 
一 棵 子 树 是 否 常量 ， 而 不 是 将 大 量 时 间 浪 费 在 对 一 个 更 大 常量 子 树 中 的 部 分 子 树 进行 前 枝 ; 当 
一 个 运算 符 连 接 一 个 常量 与 一 个 非常 量 时 ,通过 将 该 子 树 发 送 给 非 终结 符 Xform， 从 而 将 该 党 
量 折 玖 成 一 个 NUM 结 点 。 该 非 终 结 符 不 会 遍历 整 棵 子 树 , 而 是 立即 对 该 子 树 进行 变换 ， 用 一 个 
常量 结 点 取而代之 (除非 它 本 身 已 是 一 个 常量 )。 在 该 文法 中 ， 无 需 定义 任何 树 的 形状 或 名 字 ，; 
产生 式 中 的 树 模板 是 匿名 的 ， 其 子 树 已 命名 ， 但 未 展示 其 结构 。 

在 代码 清单 8.1 中 ， 通 过 装饰 区 分 了 两 类 不 同 的 结 点 。 标 识 符 结 点 用 在 符号 表 中 找到 的 该 
标识 符 的 名 字 装 饰 ， 这 允许 在 有 需要 时 可 提取 出 它们 的 特性 ， 常量 结 点 用 它们 的 数值 装饰 ， 一 
个 常量 子 表达 式 的 值 可 通过 一 个 装饰 常量 结 点 的 值 以 及 一 个 从 符号 表 中 找到 的 常量 标识 符 的 
值 构 造 出 来 。 对 一 棵 子 树 进行 变换 时 ， 新 的 常量 结 点 将 以 一 个 适当 的 复合 值 装饰 。 

8.3.3” 求 值 次 序 

代码 清单 8.1 所 示 的 常量 折 炙 例子 中 ， 用 一 个 非 终结 符 Expn 收集 了 足以 对 是 否 执行 变换 
作出 决策 的 信息 ， 但 由 另 一 非 终结 符 Xform 真正 执行 变换 ， 这 种 分 工 是 常见 且 合理 的 。 注 意 ， 
当 xform 表示 为 一 个 仍 不 是 常量 的 结 点 时 ， 该 非 终 结 符 将 无 条 件 地 执行 变换 ， 而 仅 当 Expn 
有 一 个 常量 表达 式 需 要 变换 时 ， 该 非 终 结 符 才 会 调用 xtorm. 

在 上 述 例子 中 , 信息 收集 阶段 的 信息 流 次 序 基本 上 是 自 底 向 上 的 , 未 考虑 从 左 到 右 的 次 序 。 
在 更 多 情况 下 ， 信 息 流 本 质 上 是 从 左 到 右 、 或 从 右 到 左 的 ;本章 稍 后 将 讨论 这 两 种 类 型 的 特定 
例子 。 当 我 们 引入 属性 文法 时 ， 我 们 考虑 几 个 需要 从 右 到 左 或 混合 型 信息 流 的 文法 。 对 于 一 个 
递归 下 降 或 自 底 向 上 分 析 程 序 而 言 ， 这 类 文法 简单 却 不 实用 ;然而 ， 一 个 树 文法 并 不 受 限 于 输 
入 文件 中 单词 的 任何 固有 次 序 。 

事实 上 ， 已 有 文献 提出 一 些 属性 求 值 工具 对 属性 文法 执行 详尽 的 分 析 ， 从 而 确定 一 个 最 佳 
的 属性 求 值 次 序 : 由 于 这 类 分 析 的 时 间 复 杂 度 随 文法 的 大 小 呈 指 数 级 增长 ， 更 可 取 的 做 法 是 留 
意 到 典型 的 编译 程序 设计 人 员 早 已 认识 到 合适 的 属性 求 值 次 序 ， 因 而 无 需 过 度 的 负担 即 可 告知 
编译 程序 生成 工具 。 

代码 清单 8.1 中 的 文法 将 其 属性 求 值 次 序 定义 为 二 叉 结 点 中 从 右 到 左 的 次 序 ， 这 是 由 跟 在 
树 模 板 之 后 的 语义 动作 中 非 终结 符 的 引用 次 序 规定 的 。 在 模板 中 以 从 左 到 右 次 序列 出 各 个 子 树 
并 不 会 影响 求 值 次 序 。 

8.3.4 ”信息 流 与 存储 


代码 清单 8.1 的 例子 使 用 了 三 种 不 同 的 信息 管理 方式 , 不 幸 的 是 它们 在 文献 中 全 部 被 称 
为 “属性 ”。 首 先 ， 由 于 历史 原因 ， 我 们 使 用 了 存储 在 符号 表 中 的 符号 性 质 。 尽 管 在 经 典 的 
编译 程序 设计 中 , 符号 表 是 一 个 静态 的 数据 结构 ,可 根据 当前 的 上 下 文 进 行 伸展 (和 收缩 )， 
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ARM 
而 我 们 携带 一 个 动态 引用 指向 围绕 着 分 析 树 的 〈 可 能 是 多 个 的 ) 符号 表 。 在 这 两 种 解释 下 ， 
符号 表 组 织 和 构造 并 无 很 大 的 差别 。 当 符号 表 中 的 每 一 符号 与 一 个 或 多 个 值 相关 联 时 ， 将 
由 指向 符号 表 的 引用 来 访问 这 些 值 。 这 些 值 以 前 被 称 为 符号 的 “属性 ”， 但 为 避免 混淆 ， 本 
书 自始至终 地 选择 了 术语 “特性 ”( 有 时 也 称 “ 值 ”)。 代 码 清单 8.1 中 的 文法 从 符号 表 中 抽 
取 了 两 个 特性 : 一 个 特性 是 布尔 值 ， 指 明 符号 是 否 一 个 常量 标识 符 ， 如 果 是 ， 另 一 个 特性 
是 该 常量 的 值 。 | 

其 次 ， 我 们 有 文法 产生 式 的 继承 属性 和 综合 属性 ， 这 些 术语 被 保留 下 来 。 在 这 一 文法 中 ， 
符号 表 是 -一 个 由 非 终 结 符 Expn 继承 的 属性 ， 而 符号 表 特 性 则 被 合成 为 综合 属性 ; 一 个 常量 表 
达 式 子 树 的 复合 值 随后 被 非 终 结 符 Xform 继承 。 

最 后 ， 与 TAG 一 起 新 引入 的 还 有 内 存 中 树 数据 结构 的 结 点 上 附加 的 信息 。 一 些 文献 将 这 
种 附加 数据 称 为 “属性 ” 而 将 这 种 结构 本 身 称 为 “属性 图 ”。 本 书 为 这 些 数据 选择 了 更 生动 且 
不 易 混淆 的 术语 “ 树 的 装饰 ”( 或 只 称 “ 装 饰 ”)， 而 将 这 种 结构 称 为 “ 带 装 饰 的 树 ”” 尽管 当 我 
们 提高 结 点 的 连通 性 以 容纳 全 局 优化 所 需 的 信息 时 ,“ 树 ”这 一 术语 将 变 得 有 些 不 准确 。 在 这 

文法 例子 中 ， 一 个 标识 符 的 名 字 和 一 个 常量 的 值 分 别 是 它们 各 自 结 点 的 装饰。 

一 个 “装饰 ”可 以 是 任意 的 单个 数据 ， 它 恰好 与 AST 中 的 一 个 特定 结 点 相关 联 。 装 饰 可 以 
是 如 上 述 例子 所 示 的 数值 ; 该 例子 中 装饰 了 两 个 不 同 的 结 点 , 其 中 一 个 装饰 了 一 个 常量 的 数值 ， 
另 一 个 装饰 了 惟一 的 符号 引用 (如 第 3 章 所 述 ， 该 引用 通常 是 指向 字符 串 表 的 一 个 下 标 )。 装 
饰 也 可 以 是 一 个 更 复杂 的 数据 对 象 ， 例 如 位 的 集 
合 或 甚至 整 棵 子 树 。 我 们 经 常 将 一 个 指向 树 的 另 
一 部 分 的 引用 附加 到 一 个 结 点 上 ， 从 而 以 这 种 链 
接 方式 直接 访问 树 的 其 他 部 分 ， 如 图 8-6 所 示 ， 
其 中 cali 结 点 装饰 了 一 个 引用 ， 该 引用 指向 被 
调用 过 程 的 定义 树 。 规 定 一 个 结 点 在 任 一 时 刻 只 
限 有 一 个 装饰 并 没有 什么 道理 ， 但 却 很 实用 ， 即 - 
便 在 这 一 严格 规定 之 下 ， 装 饰 也 可 设计 为 一 个 包 
含 若干 字段 的 记录 。 
8.85 “ 带 树 值 的 属性 图 8-6 用 指向 另 一 子 树 的 引用 装饰 一 个 树 结 点 

由 于 我 们 允许 以 一 棵 树 的 值 作为 树 中 结 点 的 装饰 ,在 文法 中 也 可 能 有 树 值 的 属性 。 这 成 为 一 
个 强 有 力 的 工具 ， 可 将 一 个 非 局 部 优化 变换 涉及 的 所 有 位 置 收集 到 一 两 个 非 终结 符 的 产生 式 中 。 

例如 ， 一 种 理想 的 优化 涉及 将 每 次 迭代 都 不 
会 发 生 改变 的 所 有 计算 移出 循环 之 外 .在 AST 中 ， 
典型 情况 是 有 一 个 结 点 指明 了 一 个 循环 的 头 部 
(退出 循环 的 测试 和 循环 体 则 作为 一 个 或 多 个 特 
定 的 子 树 ), 而 其 循环 体 子 树 中 可 能 存在 只 涉及 特 
环 不 变量 (真正 的 常量 以 及 循环 中 不 会 改变 的 变 
量 ) 的 表达 式 子 树 ， 如 图 8-7 所 示 。 一 种 常见 的 
有 利 做 法 是 将 这 些 循环 不 变 表达 式 的 子 树 从 它们 j 
所 处 的 树 中 剪除 ， 然 后 嫁接 到 循环 结 点 之 外 的 树 图 8-7 将 循环 不 变 代码 移 至 循环 体 之 外 
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上 。 借 助 于 带 树 值 的 属性 ， 我 们 有 两 种 方法 完成 这 一 工作 。 

完成 这 一 工作 的 最 简单 方式 是 遍历 循环 体 ， 剪 除 循环 不 变 表达 式 的 子 树 ， 然 后 将 它们 作为 
综合 属性 沿 树 向 上 传递 ， 如 图 8-8 所 示 。 这 些 被 剪除 出 来 的 子 树 片 断 随后 被 嫁接 到 树 遍 历 结 束 
的 地 方 。 


Stmt Linloop Tmovecode 





一 «Loop body» 
body: Stmt Jtrue Tbodycon Tbodycode 
> <Semicolon bodycode <Loop body>> 


一 «Semicolon notconst loopconst» 
[inloop - false; movecode - «Empty»] 


{ 若 不 在 循环 之 内 则 无 变化 ) 





循环 不 变量 


一 «Semicolon notconst loopconst» 
[inloop = true; movecode = loopconst] 
=> <Semicolon notconst <Empty>> 


=% 


图 8-8 ”利用 综合 属性 将 循环 不 变 代码 移 至 循环 体 之 外 





Stmt lparent 


«Loop body» 
newnode: «Semicolon moved: «Empty» «Loop body»» 
body: Stmt Jnewnođe 


— 
=> 
一 <Semicolon notconst loopconst> 

[parent = <Empty>] { 车 不 在 循环 之 内 则 无 变化 } 
— «Semicolon notconst loopconst> 

[inloop * <Empty>] parent: Graft lioopconst 
=> «Semicolon notconst <Empty>> 
P oars 


Graft linsertcode 


一 <Semicolon «Empty» loopbody> 
=> «Semicolon insertcode loopbody> 


图 8-9 通过 继承 一 个 父 结 点 的 引用 ， 将 循环 不 变 代码 移出 循环 体 之 外 
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另 一 种 方法 是 携带 循环 头 部 结 点 之 上 的 结 点 的 位 置信 息 ， 作 为 一 个 继承 属性 向 下 传递 到 循 
环 体 中 ， 类 似 一 个 向 上 回 望 父 结 点 的 航 窗 ， 如 图 8-9 所 示 。 一 旦 识别 到 一 个 循环 不 变 表达 式 ， 
立即 将 它们 从 循环 体 中 删除 ， 并 嫁接 到 这 一 父 结 点 。 由 于 该 继承 属性 实际 上 是 一 个 指向 父 结 点 
的 引用 ,在 树 的 深层 变换 该 属性 相当 于 变换 一 个 遥远 的 结 点 。 在 这 个 简单 的 示例 中 ， 仅 有 一 个 
循环 不 变 子 树 被 提取 出 来 ; 在 实际 应 用 中 ， 多 个 剪 枝 可 合并 为 单个 子 树 一 起 移动 。 

8.3.6 不 确定 的 分 析 

将 上 下 文敏 感 文法 用 于 编译 程序 设计 的 问题 之 一 ， 是 找 不 到 一 种 算法 构造 确定 的 线性 有 界 
自动 机 。 当 越 来 越 多 的 上 下 文敏 感性 通过 属性 引入 上 下 文 无 关 文法 后 ， 我 们 发 现 上 下 文敏 感 文 
法 的 不 确定 性 亦 随 之 而 浮现 。 在 图 8-8 和 图 8-9 所 示 的 代码 移动 例子 中 ， 两 个 文法 均 需 要 上 下 
文 信息 以 确定 是 否 对 树 进行 变换 (以 及 将 代码 外 提 )。 这 两 个 文法 所 要 求 的 上 下 文 信息 均 是 一 
对 属性 : 一 个 继承 属性 用 于 确定 外 层 上 下 文 是 否 真 的 是 一 个 循环 ， 一 个 综合 属性 用 于 确定 一 个 
特定 的 子 树 是 否 真 的 是 循环 不 变 的 (尽管 这 一 点 并 不 是 那么 明显 )。 

与 我 们 之 前 一 直 使 用 的 串 文法 相 比 ， 树 文法 本 身 就 有 些 不 确定 性 ， 因 为 当 正 在 考虑 的 某 一 
棵 树 有 几 个 分 枝 时 ， 在 确定 该 树 与 源 模 板 是 否 匹配 之 前 就 必须 先 检 查 这 些 分 枝 ， 如 果 其 中 任 一 
分 枝 匹 配 失 败 ， 那 么 不 管 分 析 程 序 已 沿 树 向 下 遍历 了 多 深 的 层次 ， 都 必须 退回 原 处 ， 放 弃 这 一 
产生 式 并 尝试 下 一 产生 式 。 

一 个 变换 文法 有 一 个 隐 仿 的“ 其他” 选项， 在 这 种 情况 下 将 与 任意 未 指定 产生 式 的 结 点 匹 
配 ， 并 将 其 变换 为 自身 。 通 常设 计 一 个 树 文法 时 ,会 显 式 地 让 不 那么 精确 的 模板 去 匹配 那些 更 
精确 模板 未 能 匹配 的 结 点 。 例 如 ， 常 量 折 和 又 变换 文法 可 能 有 一 条 产生 式 检 测 仿 两 个 常量 子 树 的 
表达 式 结 点 ， 如 果 这 一 检测 失败 则 转 而 尝试 检测 单个 常量 的 子 树 ， 如 果 首 先 尝试 第 二 个 选项 ， 
那么 它 肯定 能 够 匹配 , 但 我 们 的 意图 是 尽 可 能 匹配 最 精确 的 模板 。 这 种 启发 式 方法 有 时 又 称 “ 最 
大 咀 虽 法 ”( 这 一 说 法 可 能 源 于 小 孩 吃 曲 奇 饼 时 喜欢 最 大 限度 地 咬 上 一 口 )， 因 为 这 种 启发 式 方 
法 倾向 于 选择 最 大 的 (因而 也 是 最 精确 的 ) 产生 式 模板 。 

8.4 组 合 串 文法 与 树 文法 

如 果 编 译 程序 使 用 树 变换 实现 约束 检查 或 代码 优化 ， 则 分 析 程 序 必须 将 AST 构造 为 它 的 
语义 动作 。 虽 然 近 年 已 有 研究 将 前 端的 分 析 与 后 端的 功能 合并 为 单个 编译 程序 构造 工具 ， 但 是 
大 多 数 研究 仍 集中 在 如 何 无 须 集 成 即 可 解决 其 中 的 一 些小 问题 。 基 于 这 一 考虑 ， 我 们 开辟 一 个 
新 的 话题 ， 讨 论 适 用 于 整个 编译 程序 设计 的 统一 语法 结构 。 

有 两 种 方法 可 将 编译 程序 前 端的 串 文 法 与 在 后 端 定义 优化 和 代码 生成 的 树 文法 联系 在 一 
起 。 最 直接 〈 在 某 种 意义 上 也 是 最 简单 ) 的 方法 是 使 用 一 个 翻译 文法 ， 其 识别 部 分 是 一 个 串 文 
法 ， 其 翻译 部 分 则 是 一 个 树 文法 [MetaWare, Inc., 1981]. 

本 书 采用 另 一 种 方法 ， 它 将 构造 出 来 的 中 间 代 码 树 作为 串 文法 中 的 综合 属性 。 这 一 方法 可 
显著 提高 编译 程序 设计 的 灵活 性 ， 并 且 因 为 我 们 出 于 其 他 理由 已 使 用 了 属性 文法 ， 故 而 不 会 带 
来 额外 的 开销 。 此 时 ,分析 程序 中 的 语义 动作 可 包含 构建 树 的 成 分 ， 本 质 上 就 是 使 用 第 5 章 介 
绍 的 、 现 在 应 已 熟悉 的 相同 文法 结构 。 与 翻译 文法 相 比 ， 该 方法 的 优点 是 编译 程序 构造 工具 更 
容易 验证 每 一 语言 结构 中 的 每 一 非 终 结 符 是 否 产生 某 种 形式 的 中 间 代 码 树 ， 以 及 它们 是 否 正确 
地 链接 到 一 个 完整 的 AST 上 .代码 清单 8.2 比较 了 对 同一 表达 式 文法 片段 的 两 种 不 同 处 理 方法 。 


792 HEF 


代码 清单 52 ”在 分 析 程序 中 构造 抽象 语法 树 CAST) 的 两 种 方法 。 在 a 中 ， 源 代码 文本 
被 “变换 ”为 对 应 的 AST 结 点 ; HbR, BAST 结 点 构造 为 一 个 综合 属性 


Expn Expn Touttree:tree 
一 Expn "+" Term 一 Expn Tetree "+" Term Tttree- 
<Plus Expn Term> [outtree = <Plus etree ttree>] 
一 Term — Term fouttree 
> Term 
a) 变换 b) 综合 属性 


如 果 按 第 6 章 的 方法 使 用 代码 生成 的 语义 动作 ， 那 么 根据 一 个 AST 生成 代码 非常 类 似 于 
从 分 析 程序 生成 代码 。 然 而 ， 正 如 变换 文法 可 用 于 构造 一 个 AST， 变 换文 法 也 可 指定 如 何 将 这 
棵 树 平 展 为 线性 代码 。 现 实 计算 机 硬件 的 不 规则 性 导致 这 一 方法 缺乏 吸引 力 ， 因 而 我 们 将 代码 
生成 工作 局 限于 带 语义 动作 的 属性 文法 。 


8.5 TAG 中 的 类 型 检查 


由 第 5 章 可 见 ， 约束 检 查 既 依 赖 于 符号 表 中 继承 下 来 的 上 下 文 信息 ， 也 依赖 于 在 表达 式 叶 
结 点 综合 得 到 的 表达 式 类 型 属性 。 之前， 一 个 表达 式 运 算 符 的 操作 数 所 要 求 的 类 型 是 根据 语法 
来 确定 的 (AND 和 OR 的 操作 数 总 是 布尔 类 型 ，+ 和 * 的 操作 数 总 是 整数 类 型 )， 但 这 并 不 是 总 
能 令 人 满意 的 。 虽 然 Ada 程序 设计 语言 显 式 地 允许 程序 员 重 载运 算 符 , 但 大 多 数 程序 设计 语言 
只 是 重 载 了 算术 运算 符 , 使 得 它们 在 不 同 的 数值 类 型 (integer 和 real) 上 执行 类 似 的 功能 。 
重 载 运算 符 的 约束 无 法 通过 语法 形式 正确 地 检查 , 但 仍 可 在 一 个 “一 遍 ” 分 析 程 序 中 得 到 检查 ， 
只 要 该 语言 禁止 大 多 数 的 向 前 符号 引用 类 别 ( 在 Ada 语言 中 这 是 成 立 的 ，Pascal 和 Modula-2 
语言 亦 如 此 )。 如 果 语 言 中 没有 要 求 一 个 符号 * 先 声明 、 后 使 用 3 很 容易 令 人 想起 C 和 FORTRAN 
语言 )， 那 么 就 不 可 能 在 一 个 “一 遍 ” 分 析 程 序 中 实现 强 类 型 检查 ， 实 际 上 ，C 和 FORTRAN 
这 两 种 语言 都 不 是 强 类 型 的 。 

如 果 将 约束 程序 推迟 到 对 程序 的 第 二 遍 处 理 ， 则 “ 先 声明 、 后 使 用 ”不 再 是 强 类 型 检查 的 
必要 条 件 。 由 于 考虑 到 扫描 和 分 析 源 代码 文本 文件 的 开销 ,“ 多 遍 ” 编 译 程序 通常 在 AST EE 
成 第 二 遍 以 及 后 续 遍 的 处 理 ， 而 不 是 重新 读 入 并 分 析 源 代码 文件 。 对 于 一 个 约束 程序 而 言 ， 树 
分 析 的 不 确定 性 受 限 于 树 文法 的 简单 性 ; 约束 检查 通常 并 不 需要 在 单个 文法 规则 中 有 多 个 复杂 
的 模板 。 如 果 约 束 能 够 在 分 析 程 序 中 得 以 检查 ， 那 么 就 没 理由 再 多 用 一 “ 遍 ” 来 处 理 程序 ， 但 
如 果 语 言 的 声明 次 序 规则 (或 因此 而 导致 的 次 序 不 严格 ) 以 及 其 他 考虑 因素 强制 这 么 做 时 ， 这 
种 做 法 可 减少 分 析 AST 的 开销 。 

如 果 不 直接 遵循 第 5 章 中 展示 的 约束 程序 通用 形式 ， 那 么 关于 一 个 树 文 法 中 的 约束 检查 也 
没有 太 多 可 深入 讨论 的 。 在 典型 情况 下 ， 分 析 程 序 已 构建 了 一 个 AST， 其 中 的 标识 符 叶 结 点 已 
装饰 了 扫描 程序 返回 的 惟一 符号 下 标 ; 该 下 标 用 于 构建 和 查找 符号 表 , 与 之 前 的 做 法 完全 相同 。 
约束 程序 对 AST 略 加 变换 ， 为 运算 符 结 点 添加 了 类 型 装饰 ， 并 且 以 适当 的 常量 、 变 量 或 函数 
引用 结 点 取代 标识 符 结 点 ; 在 这 种 情况 下 ， 这 些 新 结 点 装饰 的 引用 直接 指向 对 应 的 变量 或 过 程 
声明 ， 如 图 8-10 所 示 。 虽 然 Modula-2 语言 在 语法 上 区 别 了 函数 调用 和 变量 引用 ,但 Pascal 和 
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一 些 其 他 语言 却 并 非 如 此 ， 因 而 约束 程序 必须 适当 地 对 树 进 行 变换 。 当 约束 程序 完成 对 程序 树 
的 变换 后 ， 符 号 表 中 的 类 型 成 分 可 以 丢弃 。 





8-10 ”约束 程序 对 表达 式 a+ b 进行 的 树 变换 


一 旦 将 语法 制导 的 约束 检查 置 之 脑 后 , 我 们 也 可 自由 地 将 属性 文法 用 于 正确 地 强制 规定 变 
参 的 用 法 ， 而 这 在 第 5、6 章 强加 的 限制 之 下 是 做 不 到 的 。 解 决 这 类 问题 有 两 种 通用 的 途径 。 
最 单纯 的 方法 是 定义 一 个 分 析 程 序 的 文法 ， 使 其 所 有 的 参数 均 接 受 表 达 式 ， 然 后， 在 约 东 程序 
中 合成 一 个 布尔 类 型 的 综合 属性 ， 该 属性 断言 某 一 参数 是 否 为 单个 变量 引用 ， 在 所 有 情况 下 该 
属性 都 会 被 求 值 ， 但 如 果 是 值 参 则 忽略 该 属性 ， 且 仅 当 符号 表 返 回 一 个 变 参 类 型 需 匹 配 时 才 检 
查 该 属性 。 第 二 种 方法 允许 以 语义 驱动 一 个 分 析 程 序 ， 从 而 根据 所 需 的 是 一 个 变 参 还 是 一 个 值 
参 来 决定 应 用 不 同 的 产生 式 。 这 种 组 合 的 方法 更 难以 保障 其 正确 性 ， 但 其 优点 是 有 利于 代码 生 
成 的 “一 遍 ” 编 译 。 


8.6 ”基于 变换 的 代码 优化 


上 世纪 50 年 代 中 期 ,最 早 的 高 级 语言 编译 程序 已 提出 十 余 种 实用 的 代码 优化 变换 [Backus, 
1981]。 在 随后 的 35 年 中 ， 这 一 清单 并 没有 增长 很 多 ， 除 了 计算 机 体系 结构 的 变化 给 代码 改进 
带 来 新 的 机 遇 。 因 而 ， 本 小 节 只 讨论 经 典 的 优化 技术 ， 说 明 如 何在 TAG 中 自然 地 定义 每 一 种 
优化 。 

大 多 数 代码 优化 的 实现 需要 两 个 步骤 。 第 一 步 是 分 析 ， 收 集 信 息 以 找 出 应 用 这 一 特定 变换 
的 机 会 ;第 二 步 才 真正 地 对 AST 进行 变换 。 这 两 步 通常 可 在 同一 次 遍历 AST 时 完成 ， 但 同样 
也 有 许多 时 候 ， 应 用 任何 变换 之 前 必须 先 收集 相关 信息 。 在 后 一 种 情况 下 ， 将 多 种 优化 变换 的 
信息 收集 步骤 合并 为 一 次 AST 遍历 会 更 加 有 益 ， 类 似 地 ， 多 种 树 变换 经 常 可 合并 为 一 个 文法 ， 
表示 在 AST 上 的 一 次 遍历 。 在 AST 上 每 一 次 不 必要 的 分 析 或 变换 遍历 意味 着 花费 额外 的 编译 
时 间 ， 在 编译 程序 的 设计 目标 中 当然 希望 尽 可 能 让 这 些 开 销 最 少 。 

8.6.1 数据 流 分 析 

许多 变换 都 需要 使 用 一 类 称 为 “ 流 分 析 ” 的 分 析 技 术 ， 这 种 技术 通常 又 称 “ 数 据 流 分 析 ” 
(DFA)。 数 据 流 分 析 追 踪 整 个 编译 单元 (通常 是 过 程 》 中 的 数据 流向 、 变 量 用 法 或 其 他 因素 。 
某 些 数 据 流 分 析 关注 程序 中 向 前 流动 的 信息 ; 其 中 一 个 例子 是 常量 传播 ， 即 在 程序 执行 路 径 中 
某 一 点 的 变量 引用 已 知 为 某 一 常量 值 时 ， 可 用 该 常量 取代 这 一 变量 引用 。 另 一 些 数据 流 分 析 关 
注 从 程序 结束 处 向 后 流动 的 信息 ; 其 中 一 个 例子 是 消除 那些 对 不 再 使 用 的 变量 的 赋值 。TAG fb 
许 编译 程序 设计 人 员 显 式 地 指明 分 析 的 方向 。 

根据 分 析 中 所 应 用 的 是 集合 并 运算 I “UN 还 是 集合 交 运算 ( 即 “ 门 ”)， 还 可 将 数据 流 
分 析 技 术 进 一 步 细 分 。 由 于 集合 的 并 运算 和 交 运 算 在 数学 上 是 对 偶 的 ， 理 论 计算 机 科学 家 可 能 
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比 编译 程序 设计 人 员 对 这 一 划分 更 感 兴趣 。 使 用 并 运算 和 交 运 算 均 可 定义 大 多 数 的 数据 流 算 
法 ， 取 决 于 其 中 所 涉及 的 集合 属性 的 含义 。 

可 证 明 ， 对 某 一 特定 类 的 数据 流 分 析 ， 集 合 属性 定义 了 一 个 “ 格 ” 该 格 是 值 的 偏 序 ， 使 
得 并 运算 返回 “大 于 ”或 等 于 其 操作 数 的 最 小 值 ， 且 交 运 算 返 回 小 于 或 等 于 其 操作 数 的 最 大 值 。 
格 的 底 元 素 是 所 有 可 能 的 值 的 交集 ， 在 数据 流 分 析 中 表示 “无 信息 ”或 “所 有 东西 未 定义 ”; 
而 格 的 顶 元 素 是 所 有 可 能 的 值 的 并 集 ， 可 表示 一 个 永 不 终止 的 假想 程序 。 格 点 元 素 被 赋予 的 特 
定 含义 取决 于 这 些 属 性 的 目的 ， 以 及 用 于 合并 集合 值 的 操作 〈 并 运算 或 交 运 算 )。 

数据 流 分 析 中 最 重要 的 数据 结构 是 位 向 量 ， 在 Pascal 和 Modula-2 语言 中 相当 于 一 个 集合 。 集 
合 类 型 表示 某 一 序数 类 型 (通常 是 一 个 基数 的 子 界 ， 例 如 0 ..n 1) “FER”, 这 一 集合 的 值 可 
以 是 2 个 包含 0 个 或 多 个 元 素 的 可 能 类 集 之 一 ， 一 个 元 素 要 么 在 该 类 集中 ， 要 么 不 在 该 类 集中 。 

例如 ， 设 定子 界 为 0..2， 则 有 3 个 集合 元 素 : 0、1 和 2， 以 及 8 个 不 同 的 可 能 集合 : { }、 
(0). {1)、{2})、{0,1}、{1,2}、{0,2 } 和 {0,1,2}。 在 这 种 情况 下 ， 一 个 集合 在 机 器 中 
很 自然 的 表示 方法 是 一 个 含 3 个 位 的 位 串 ， 每 一 位 的 编号 与 子 界 基 类 型 的 元 素 匹 配 。 整 数 i 属 
于 集合 s 当 且 仅 当 位 串 中 的 第 i 位 为 1; 空 集 表示 为 所 有 位 为 0。 对 于 小 型 集合 而 言 ， 集 合 的 交 
运算 是 大 多 数 计算 机 硬件 中 的 原 语 操作 ， 即 “逻辑 与 ” 运算 符 ， 一 个 元 素 属 于 两 个 集合 的 交集 ， 
当 且 仅 当 它 同 时 是 两 个 集合 的 成 员 。 类 似 的， 集合 的 并 运算 也 是 一 个 原 语 操作 ， 使 用 “逻辑 或 ” 
运算 符 ; 一 个 元 素 属 于 两 个 集合 的 并 集 , 只 要 它 属于 两 个 集合 中 的 某 一 个 或 同时 属于 两 个 集合 。 

许多 数据 流 分 析 涉 及 变量 的 集合 。 每 一 变量 被 指定 了 一 个 惟一 的 序数 ， 通常 由 约束 程序 将 
标识 符 添加 到 符号 表 时 指定 。 这 些 序 数 未 必 是 相 邻 的 ， 但 如 果 它 们 相 邻 则 可 令 集合 更 加 紧凑 。 
然而 ， 同 一 标识 符 表 示 的 不 同 变量 〈 可 能 位 于 不 同 的 作用 域 中 ) 必须 具有 不 同 的 数字 ;我 们 关 
心 的 是 真正 的 变量 ， 而 不 是 它们 的 名 字 。 诸 如 数组 和 记录 等 聚合 变量 是 一 类 特殊 问题 ， 稍 后 将 
详细 讨论 。 

考虑 代码 清单 8.3 所 示 的 一 个 简单 程序 例子 。 它 有 三 个 变量 , 我 们 随意 编号 为 a=0、b=1 
和 ec = 2， 从 而 它们 可 表示 为 一 个 集合 中 的 相 邻 元 素 。 在 该 程序 上 可 执行 两 种 不 同 的 数据 流 分 
析 ， 一 个 是 向 前 的 ， 另 一 个 是 向 后 的 。 


代码 清单 8.3 ”用 于 展示 数据 流 分 析 的 小 程序 


MODULE DataFlow; 
FROM IO IMPORT 
ReadInt, WriteInt; 





VAR 
a, b, c: INTEGER; 

1 BEGIN 
2 a := 5; 
3 ReadInt (b); 
4 IF b = 3 THEN 
5 c:=a-b 
6 ELSE 
7 a := b; 
8 b := 3 


END; 
WriteInt(c + b) 
10 END DataFlow; 


to 
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对 于 第 一 种 分 析 ， 程 序 中 传播 的 集合 表示 在 每 一 点 其 值 为 已 知 常量 的 所 有 变量 。 如 果 程 序 
执行 到 某 一 点 时 一 个 变量 的 值 已 知 为 常量 ， 则 该 变量 属于 该 集合 。 

初始 时 〔 代 码 清单 8.4 中 的 第 1 行 )， 所 有 三 个 变量 均 未 定义 ， 因 而 集合 为 空 《即位 向 量 全 
部 为 0)。 执 行 第 2 行 后 ， 变 量 a 具有 常量 值 5， 因 而 集合 为 { 0 }， 其 中 仅 包 含 变量 a。 执 行 第 
3 行 后 ， 变 量 b 被 定义 ， 但 其 值 来 自 编译 时 未 知 的 输入 数据 ， 并 不 是 一 个 已 知 的 常量 ， 因 而 变 
i b 不 会 添加 到 集合 中 。 然 而 在 第 5 行 开始 时 ， 变 量 b 此 时 是 已 知 的 常量 值 3 一 一 假如 该 变量 
不 是 3 则 会 执行 了 ELSE 路 径 ， 因 而 THEN 部 分 开始 时 相关 联 的 集合 是 { 0, 1 }。 由 于 a 和 b 都 
是 已 知 的 常量 ， 所 以 这 两 者 之 差 也 是 常量 ， 因 而 变量 c 将 添加 到 集合 中 ,在 第 $ 行 结束 时 集合 
为 { 0, 1, 2 }。ELSE 部 分 (第 7 行 ) 开始 时 的 集合 又 是 { 0 }， 因 为 此 时 关于 变量 b 的 所 有 已 知 
信息 只 能 保证 b 不 等 于 3， 故 b 并 不 是 集合 中 的 成 员 。 在 这 一 行 语句 的 执行 过 程 中 ， 变 量 a 也 
不 再 具有 一 个 已 知 的 常量 值 ， 从 而 导致 在 该 行 结 束 后 集合 为 空 。 然 而 在 第 8 行 ， 变 量 b 被 赋值 
为 常量 值 3， 因 而 在 ELSE 部 分 结束 时 集合 为 { 1 }。 


代码 清单 8.4 ”使 用 集合 交 运算 的 向 前 数据 流 分 析 


MODULE DataFlow; 
FROM IO IMPORT 
ReadInt, WriteInt; 





VAR 
a, b, c: INTEGER; 
1 BEGIN 
———— 0 
2 a := 5; 
-------------------- (0) 
3 ReadInt (b); 
TM (0) 
4 IF b = 3 THEN 
TT (0,1) 
5 cC:-a-b 
T---MMMMMMe {0,1,2} 
6 ELSE 
TM (0) 
7 a := b 
——— 0 
8 b := 3 
TM (1) 
END; 
———] (0,1,2)0 (1) 2 (1) 
9 WriteInt(c + b) 


10 END DataFlow; 


在 到 达 第 9 行 时 ， 有 两 个 候选 的 常数 变量 集合 。 从 THEN 部 分 出 来 的 任何 非常 数 变 量 在 后 
续 语 句 中 肯定 不 是 常量 ， 类 似 地 ，ELSE 部 分 的 任何 非常 数 变量 也 须 在 后 续 语 句 中 看 作 不 是 党 
E. 因而， 正确 的 集合 应 该 是 交集 { 0, 1, 2 } 站 {1 } = { 1 }。 尽 管 变量 b 从 两 个 条 件 分 支出 来 都 
是 常量 , 但 这 里 b 只 是 碰巧 在 两 种 情况 下 具有 相同 的 值 ; 一 般 情况 下 这 并 不 成 立 ， 必 须 从 已 知 
为 常量 的 变量 集中 取消 该 变量 的 资格 。 

在 作为 输出 的 表达 式 中 ， 变 量 b 是 一 个 常量 ,但 c 却 不 是 





实际 上 如 果 执 行路 径 通 过 
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ELSE 部 分 出 来 时 ， 变 量 c 甚至 是 未 定义 的 。 如 果 我 们 以 另 一 种 方式 定义 集合 ， 那 么 在 这 里 也 
许可 以 报告 一 个 编译 时 错误 ， 即 “变量 c 可 能 未 定义 ”( 参 阅 练习 4)。 

为 运用 向 后 的 数据 流 分 析 ， 我 们 定义 一 个 新 的 集合 属性 ， 其 中 恰好 包含 了 那些 在 变量 中 的 
值 可 能 再 次 被 使 用 的 变量 ;可 能 再 次 被 使 用 的 变量 称 为 活跃 变量 。 刚 开始 时 ， 惟 一 已 知 集 合 值 
的 地 方 是 在 程序 的 结束 处 〈 代 码 清单 8.5 的 第 10 行 )， 这 里 没有 任何 变量 被 使 用 ， 因 而 集合 为 
空 且 所 有 变量 均 为 非 活跃 的 。 进 入 第 9 行 后 可 知 ， 变量 b 和 c 在 输出 表达 式 中 被 使 用 ， 因 而 将 
它们 添加 到 活跃 变量 集中 ， 形 成 集合 { 1,2 }。 


代码 清单 8.5 ”使 用 集合 并 运算 的 向 后 数据 流 分 析 


MODULE DataFlow; 
FROM IO IMPORT 
ReadInt, WriteInt; 


VAR 
a, b, c: INTEGER; 
1 BEGIN 
-~ {2} 
2 a := 5 
ee (0,2) 
3 ReadInt (b); 
— {0,1}U{1,2}={0, 1,2} 
4 IF b = 3 THEN 
ee {0,1} 3 
5 c =a- b 
~------------------- {1,2} 
6 ELSE 
-~ (1,2) 
7 a := b 
— (2) S 
8 b := 3 
-------------------- {1,2} 
END; 


——— (1,2) 

9 Writelnt(c + b) S 

EE {} 

10 END DataFlow; 

该 集合 的 值 将 以 相同 方式 传播 到 两 个 条 件 支 路 。 第 8 行 的 赋值 语句 取消 〈 注 销 ) 了 变量 b 
(在 这 一 行 之 后 , b 以 前 的 值 不 再 被 使 用 ); 但 第 7 行 注 销 变 量 a 后 , 变量 b 又 被 添加 回 集合 中 。 
注意 ， 此 处 关注 的 信息 流 是 基于 程序 执行 《运行 时 ) 的 次 序 ， 而 不 是 文本 的 次 序 。 因 而 ， 对 一 
个 变量 的 赋值 将 先 从 正在 处 理 的 向 后 流动 集合 中 注销 该 变量 ; 然后 若 在 赋值 给 它 的 表达 式 中 又 
使 用 了 同一 变量 ， 则 令 该 变量 再 次 复活 。 在 ELSE 部 分 开始 处 ， 正 在 处 理 的 集合 是 { 1, 2 }。 类 
dh, THEN 部 分 的 赋值 语句 注销 变量 c， 但 将 变量 a 和 添加 到 活跃 变量 集中 。 

当 条 件 语句 的 两 个 支 路 在 条 件 表 达 式 测试 处 ( 即 从 执行 次 序 看 ， 恰 好 在 条 件 表 达 式 求 值 之 
后 ) 再 次 汇合 ， 我 们 取 这 两 个 集合 的 并 集 。 在 任 一 支 路 开始 处 活跃 的 变量 ， 必 定 在 布尔 表达 式 
出 来 时 也 是 活跃 的， 从 而 我 们 有 活跃 变量 集 { 0, 1 }U {1,2 })={0,1,2}。 在 IF 语句 中 被 测试 
的 布尔 表达 式 将 变量 b 添加 到 该 集合 中 ， 但 由 于 该 变量 本 已 在 集合 中 ， 故 集合 不 作 任 何 改 变 。 
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第 3 行 的 输入 语句 注销 了 变量 b; 第 2 行 的 赋值 语句 注销 了 变量 a。 

传播 到 第 1 行 的 活跃 变量 集 本 应 为 空 集 ， 表 明 这 样 一 个 事实 : 此 时 没有 变量 具有 已 定义 的 
值 可 供 使 用 ， 然 而 变量 c 却 出 现在 活跃 变量 集中 ， 这 证 明 程序 中 存在 一 个 缺陷 ， 即 我 们 之 前 提 
及 的 同一 类 错误 。 读 者 不 妨 自 己 在 程序 开头 补 回 一 条 遗漏 的 对 变量 c 的 赋值 语句 ， 然 后 重 做 两 
种 数据 流 分 析 ， 以 验证 这 一 修改 确实 消除 了 错误 参阅 练习 5)。 
8.6.2 ”数据 流 分 析 中 使 用 属性 文法 

利用 自己 定义 的 集合 属性 类 型 以 及 适当 的 并 运算 和 交 运 算 属性 求 值 函数 , TAG 很 自然 地 成 
为 定义 数据 流 分 析 的 表示 法 。 代 码 清单 8.6 展示 了 向 后 的 活跃 变量 分 析 的 文法 片段 。 


代码 清单 8.6 ”一 个 小 型 的 数据 流 分 析 文法 


LiveVars linlive:set Toutlive:set 


一 «Assign <ID>%name expn> 
[exclude iname linlive Tasnset] { 从 传 入 集中 删除 名 字 ) 
[useless - (inlive = asnset)] { 标注 该 变量 是 否 不 在 其 中 } 
expn:LiveVars Jasnset Toutlive { 将 结果 传递 给 表达 式 } 
=> <Assign «ID»$name expn>%useless { 对 结 点 加 以 装饰 ， 以 提示 代码 生成 } 
一 «ID»$name 


[addset linlive Jname Toutlive] { 将 名 字 添 加 到 当前 正 处 理 的 集合 中 } 


一 <NUM>%value 
[outlive = inlive] { 忽略 常量 } 
一 «Read <ID>%name> 


[exclude Jname linlive Toutlive] { 从 传 入 集中 删除 名 字 ) 


一 «Write expn» 


expn:LiveVars linlive Toutlive { 传递 集合 ， 使 之 流 经 表达 式 } 


“一 «Semi left rite» | «Less left rite» | «Equal left rite» | <Grtr left rite» | 
«Plus left rite» | «Minus left rite» | «Star left rite» | «Divd left rite» 
rite:LiveVars linlive Tmidlive { 使 集合 流 经 表达 式 和 语句 序列 } 
left:LiveVars Jmidlive Toutlive { 注意 是 从 右 到 左 流动 } 


一 «IF expn then else» 
then:LiveVars linlive Tthnlive ( 使 集合 流 经 then 和 else 部 分 } 
else:LiveVars linlive Telslive 
[union Jthnlive lelslive Texpnlive] { 将 其 并 集 传 递 给 表达 式 3 


expn:LiveVars lexpnlive Toutlive 


该 文法 中 , 单个 非 终结 符 LiveVars 递归 地 遍历 一 棵 程序 树 , 以 寻找 变量 引用 和 赋值 语句 。 
它 有 一 个 从 右 到 左 的 属性 ， 表 示 流 经 整个 程序 的 集合 。 变 量 引 用 将 它们 各 自 的 变量 标识 符 编号 
《用 ID 结 点 上 的 装饰 name 表示 ) 添加 到 集合 中 ， 赋 值 语 句 从 集合 中 删除 相应 的 元 素 。 

一 旦 树 遍 历程 序 分 析 到 一 个 赋值 语句 结 点 ， 变 量 将 从 传 入 的 待 处 理 集合 中 删除 ， 即 从 产生 
的 差 集中 删除 该 变量 。 如 果 结 果 集 与 传 入 的 集合 相同 ， 则 该 标识 符 进入 这 一 结 点 之 时 已 经 不 活 
跃 ， 因 而 该 赋值 语句 没有 作用 ; 该 结 点 将 被 附加 一 个 布尔 类 型 的 标志 作为 装饰 ， 从 而 让 后 续 的 
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代码 生成 程序 知道 在 这 种 情况 下 可 消除 该 赋值 语句 。 正 处 理 的 集合 还 将 发 送 给 整 棵 表达 式 子 
树 ， 并 且 其 结果 将 向 上 传递 到 树 的 左边 。 

当 树 遍历 程序 遇 到 一 个 标识 符 结 点 时 ， 直 接 将 其 变量 编号 添加 到 传 出 的 集合 中 ; 但 是 常量 
则 对 这 一 集合 没有 什么 影响 。Read 语句 类 似 于 无 表达 式 的 赋值 语句 ，wWrite 语句 令 属性 集 流 
经 右边 的 整 棵 表达 式 子 树 ， 而 不 作 进一步 处 理 。 二 元 表达 式 的 运算 符 子 树 和 分 号 子 树 的 遍历 是 
从 右 到 左 ， 因 而 传 入 的 待 处 理 集 首先 被 传递 给 右边 的 子 树 ， 然 后 其 结果 被 传递 给 左边 的 子 树 。 

上 述 文法 中 ， 条 件 语 句 是 一 个 有 趣 的 结 点 ， 因 为 then 部 分 和 else 部 分 是 并 行 的 ， 而 不 
是 顺序 的 。 这 意味 着 同一 个 传 入 的 位 集 被 同时 传递 给 两 棵 子 树 ， 其 结果 必须 先 采 用 集合 的 并 运 
算 组 合 在 一 起 ， 然 后 再 将 结果 传递 给 布尔 表达 式 子 树 。 


8.7 ”中 间 代 码 树 表示 的 替代 方案 


将 树 作为 程序 的 一 种 内 部 表示 的 关键 优势 之 一 ， 是 可 编写 一 个 生成 文法 ， 使 得 程序 中 的 
每 一 结 点 恰好 被 访问 一 次 〈 前 序 或 后 序 )， 并 采用 传统 的 程序 验证 技术 证 明 其 正确 性 ， 从 而 更 
容易 证 明 优化 变换 是 完整 的 和 正确 的 ， 这 正 是 编译 程序 设计 中 的 一 个 重要 考虑 因素 。 然 而 ， 
程序 树 上 的 数据 流 分 析 要 求 源 程序 遵循 结构 化 或 无 GOTO 语句 的 程序 设计 风格 。 这 是 相对 较 
新 的 程序 设计 语言 进展 ， 并 非 所 有 语言 都 满足 这 一 约束 。 值 得 一 提 的 是 ， 就 算是 最 近 的 某 些 
程序 设计 语言 也 不 是 完全 结构 化 的 。 例 如 ，C 程序 设计 语言 switch 结构 中 的 break 语句 
在 功能 上 与 一 条 coro 语句 相同 ， 因 为 它 破 坏 了 在 每 一 结构 中 “ 单 入 口 、 单 出 口 ” 的 结构 化 
风范 。 

鉴于 编译 程序 设计 人 员 始 终 有 可 能 需要 处 理 一 些 非 结 构 化 语言 (其 中 最 著名 的 是 C 和 
FORTRAN 语言 )， 很 值得 回顾 一 下 更 传统 的 中 间 代 码 表示 方式 ， 并 讨论 这 类 数据 结构 中 的 
数据 流 考虑 因素 。 通 常 这 种 格式 称 为 “四 元 式 ”( 有 时 也 可 能 是 “三 元 式 ”)， 这 是 基于 以 下 
SX: 每 一 元 素 均 由 四 个 成 分 组 成 ， 包 括 一 个 运算 符 、 一 个 目标 操作 数 以 及 最 多 两 个 源 操 
作 数 。 

四 元 式 表示 法 的 灵感 来 源 于 大 多 数 计 算 机 的 低级 、 非 结 构 化 体系 结构 。 在 这 种 体系 结构 中 ， 
控制 流 由 一 个 运算 或 指令 的 序列 决定 , 与 第 6 章 介绍 的 Itty Bitty 栈 机 器 非常 相似 。 诸 如 while 
或 if-then-else 等 高 级 语言 结构 将 还 原 为 条 件 分 支 和 无 条 件 分 支 ; 类 似 地 ， 复 杂 表 达 式 将 
还 原 为 单 运算 的 赋值 语句 序列 ， 使 用 显 式 的 临时 变量 保存 中 间 结 果 值 。 代 码 清单 8.7 展示 了 代 
码 清单 8.3 中 样 例 程序 的 四 元 式 。 


代码 清单 8.7 ”代码 清单 8.3 中 程序 的 四 元 式 ， 同 时 展示 了 基本 块 








B1 a 《一 5 

ti 《一 (CALL) ReadInt 
B2 b 《一 t1 

t2 《一 b - 3 

L1 c (BRF) t2 
B3 t3 《一 a - b 

c 《一 七 3 

L2 tc (BRA) 
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B4 L1 a c b 
b c— 3 
L2 《一 (BRA) 
B5 L2: t4 《一 C 十 b 
《一 (CALL) WriteInt t4 


优化 一 个 以 四 元 式 表示 的 程序 通常 要 求 重 新 组 织 程序 中 的 某 些 结构 信息 ， 而 这 些 信 息 在 生 
成 四 元 式 时 通常 被 丢弃 。 程 序 员 一 般 都 会 遵循 结构 化 程序 设计 习惯 ， 即 便 程序 设计 语言 本 身 并 
没有 支持 或 强迫 他 们 这 样 做 。 虽 然 将 一 个 程序 翻译 为 四 元 式 时 删除 了 所 有 其 他 的 结构 ， 但 已 有 
大 量 研究 试图 通过 对 程序 的 数据 流 进行 分 析 以 恢复 这 些 结构 (或 指出 它们 确实 不 存在 )。 

恢复 程序 结构 的 第 1 步 是 将 线性 的 四 元 式 囊 划分 为 “基本 块 ”” 这 些 基本 块 是 四 元 式 的 序 
列 , 最 多 只 包含 一 个 标号 (位 于 第 一 行 ), 并 且 最 多 只 有 一 条 分 支 或 调用 指令 (位 于 最 后 行 )， 
因而 , 只 能 从 第 一 行进 入 一 个 基本 块 , 并 且 只 能 在 执行 完 最 后 一 行 后 退出 基本 块 。 代码 清 单 8.7 
中 用 虚线 分 隔 了 基本 块 。 

下 一 步 是 构造 一 个 有 向 图 (而 不 是 一 樟树 1， (85) 

其 中 以 基本 块 作为 结 点 , 分 支 指令 和 自然 流向 将 这 (90) —9 (92) 
些 结 点 连接 在 一 起 。 图 8-11 展示 了 上 述 小 例子 中 © 

的 基本 块 控制 流 图 。 

8.7.1 ”四 元 式 的 数据 流 

经 典 的 数据 流 分 析 仅 关注 单个 基本 块 中 的 数据 流 分 析 。Kildall 基于 格 模型 将 这 种 分 析 技术 
扩展 到 一 个 编译 单元 的 整个 图 [Kildall, 1972]。 图 中 的 每 一 条 边 均 附加 了 一 个 集合 ， 初 始 时 该 集 
合 为 空 ， 然 后 信息 集 向 后 流动 (或 向 前 ， 视 具体 情况 而 定 )， 直 至 每 一 条 边 都 已 更 新 了 新 的 集 
合 值 。 著 一 个 结 点 有 两 条 或 多 条 射 入 弧 〔 例 如 本 例 中 的 B5)， 则 令 其 集合 以 相同 方式 流 经 每 
HAIG 车 一 个 结 点 有 两 条 或 多 条 射出 弧 《 本 例 中 的 B2)， 则 将 这 些 射出 弧 的 集合 的 并 集 (或 
交集 ， 视 具体 情况 而 定 ) 传播 给 该 结 点 。 由 于 我 们 无 法 编写 一 个 通用 的 TAG 以 最 优 次 序 〈 即 
便 存在 这 样 的 次 序 ) 系统 地 访问 控制 流 图 中 的 每 一 结 点 ， 因 而 有 必要 迭代 执行 这 一 算法 ， 直 至 
所 有 集合 稳定 下 来 。 

如 果 一 个 迭代 的 数据 流 算法 在 每 次 选 代 中 集合 均 始 终 如 -地 递增 《附加 在 任何 结 点 上 的 集 
合 从 不 删除 元 素 ) 或 递减 〈 从 不 添加 新 的 元 素 )， 并 且 递增 或 递减 的 方向 保持 不 变 ， 则 称 该 数 
据 流 算法 为 单调 的 。 代 码 优化 中 使 用 的 数据 流 分 析 算 法 通常 是 单调 的 。 例 如 ， 代 码 清单 8.6 中 
的 活跃 变量 分 析 是 单调 的 ， 但 常数 变量 的 分 析 不 是 单调 的 ， 因 为 在 程序 某 一 特定 点 可 见 的 一 个 
变量 可 能 在 第 一 遍 时 被 认为 是 一 个 常量 ， 但 稍 后 的 分 析 (可 能 是 -个 循环 的 终止 ) 在 访问 控制 
流 图 中 一 个 结 点 的 射出 弧 时 ， 可 能 发 现 其 求 值 表达 式 中 某 一 分 量 有 不 同 的 值 ， 而 后 续 的 迁 代 会 
考虑 到 这 个 表达 式 的 值 。 

如 果 图 中 的 分 又 与 汇合 仅 使 用 了 集合 的 并 运算 〈 对 于 非 递减 的 位 向 量 ) 或 交 运算 (对 于 非 
递增 的 向 量 )， 且 集合 的 从 属 关系 不 依赖 于 集合 中 其 他 元 素 的 从 属 关 系 ， 则 很 容易 证 明 -一 个 给 
定 的 算法 是 单调 的 。 其 他 类 型 的 算法 也 可 能 是 单调 的 ， 但 它们 更 加 难以 判定 。 可 证 明 ，_ 个 单 
调 的 数据 流 分 析 算法 总 是 可 终止 的 ， 因 为 使 用 的 是 有 穷 集 (典型 情况 是 受到 源 程序 中 变量 、 表 


图 8-11 代码 清单 8.3 中 程序 的 控制 流 图 
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达 式 、 语 句 的 数目 限制 )， 且 算法 在 所 有 集合 成 为 空 集 〈 交 集 的 情况 ) 或 全 集 ( 并 集 的 情况 ) 
之 前 将 趋 于 稳定 。 . 

机 灵 的 读者 可 能 已 注意 到 ， 有 向 程序 图 中 的 数据 流 分 析 相 当 于 我 们 之 前 在 程序 树 中 对 所 有 
程序 结构 进行 检查 ;然而 我 们 强调 在 控制 流 图 中 必须 进行 迭代 ， 对 于 树 则 一 般 没 有 强调 。 这 里 
的 本 质 区 别 在 于 非 结构 化 的 como 语句 对 控制 流 图 带 来 的 影响 。 图 8-12 展示 了 两 个 不 可 能 以 结 
构 化 程序 结构 表示 的 图 。 不 存在 算法 可 根据 源 代码 构造 这 些 图 的 树 表示 ， 并 保证 能 够 以 一 种 正 
确 的 次 序 使 得 每 一 结 点 访问 一 次 即 可 实现 正确 的 数据 流 分 析 ; 实际 上 在 其 中 的 一 种 例子 中 ， 一 
次 性 访问 的 图 遍历 是 肯定 不 够 的 。 


ie OC To 


图 8-12 ”两 个 非 结构 化 的 控制 流 图 。 图 a 是 C 语言 程序 片段 的 一 种 简化 
形式 ， 而 图 b 只 有 在 乱用 coro 语句 时 才 可 实现 互 锁 的 循环 
8.7.2 ”循环 的 数据 流 分 析 

ATA NM (if-then-else 语句 或 case 语句 )， 循 环 结构 的 数据 流 分 析 通 
常 无 法 在 一 遍 中 完成 ， 其 原因 是 : 向 前 流 过 循环 到 达 其 出 口 的 信息 ， 必 须 在 循环 的 入 口 处 也 是 
可 用 的 ;向 后 流 过 循环 到 达 其 入 口 的 信息 ， 必 须 在 循环 的 出 口 处 也 是 可 用 的 。 在 基本 块 的 有 向 
图 中 ， 这 一 问题 的 显 式 解 决 方案 是 让 数据 流 分 析 算 法 在 整个 图 中 迭代 ， 直 至 最 终 趋 于 稳定 。 树 
表示 中 的 数据 流 分 析 也 可 迭代 直至 稳定 ， 但 对 于 一 个 单调 的 算法 ， 通 常 对 每 一 循环 体 的 处 理 最 
多 只 需 两 次 : 第 一 次 遍历 循环 体 就 足以 确定 循环 体 中 的 语句 对 另 一 端 集 合 的 贡献 ， 第 二 次 遍历 
将 该 集合 与 流 经 循环 出 口 的 信息 合并 在 一 起 〈 在 向 前 数据 流 分 析 中 )。 

考虑 代码 清单 8.6 中 的 “引用 一 定 值 ”数据 流 分 析 例 子 。 由 于 数据 向 后 流动 ， 所 以 在 循环 
出 口 处 , 活跃 变量 的 组 成 是 那些 在 循环 入 口 处 活跃 的 变量 与 跟 在 循环 之 后 的 代码 中 活跃 的 变量 
的 并 集 。 图 8-13 展示 了 一 个 小 型 循环 完成 了 数据 流 分 析 后 的 集合 。 该 程序 片段 有 3 SEAR, 
其 中 第 2 个 基本 块 组 成 了 循环 体 。 在 第 3 个 基本 块 的 入 口 处 , 活跃 变量 集 包 含 元 素 { a, b }。 仅 
考虑 循环 体 并 忽略 后 续 的 两 个 块 , 第 2 个 基本 块 入 口 处 的 活跃 变量 有 { b, c,d}, 这 意味 着 变量 
b. cA 在 基本 块 中 被 注销 之 前 会 被 引用 。 这 两 个 集合 的 并 集 为 { a, b, c, a }， 这 正 是 流向 循 
环 出 口 的 正确 集合 。 在 第 二 次 遍历 中 ,循环 入 口 处 出 现 相同 的 集合 。 注 意 ， 变 量 e 在 循环 中 首 
次 被 引用 之 前 已 被 注销 〔( 即 被 赋值 )， 因 而 在 循环 入 口 处 该 变量 并 非 活 跃 的 。 

如 果 流 经 循环 体 的 第 一 遍 数 据 流 分 析 携 带 了 尽量 多 的 信息 ， 则 另 一 端的 集合 在 第 一 次 
遍历 之 后 已 经 正确 ; 具有 循环 体 中 使 用 的 集合 要 求 第 二 次 遍历 。 引 理 8.1 给 出 了 更 形式 化 的 
描述 : 

引 理 8.1 一 个 单调 的 数据 流 分 析 算 法 用 于 一 个 仅 含 单个 循环 的 结构 化 程序 图 时 ， 在 后 续 
的 选 代 中 无 法 令 任何 位 于 循环 体 之 外 的 集合 增 大 (其 证 明 参 阅 练 习 12 )。 
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CT TTT] 
图 8-13 流 经 一 个 循环 的 “引用 一 定 值 ” 数 据 流 分 析 

定理 8.1 对 于 一 个 单调 的 数据 流 分 析 算 法 ， 两 次 遍历 一 棵 结构 化 程序 的 树 就 足够 了 。 

定理 8.1 的 证 明 可 直接 从 引 理 8.1 得 到 。 我 们 应 用 此 定理 ， 对 代码 清单 8.6 的 TAG 进行 扩 
展 ， 以 执行 活跃 变量 分 析 ， 结 果 如 代码 清单 8.8 所 示 。 注 意 ，WHILE 和 MODULE (编译 单元 的 
根 结 点 ) 这 两 个 结 点 添加 了 新 的 产生 式 。 我 们 从 根 结 点 出 发 ， 使 用 同一 文法 两 次 遍历 程序 树 ， 
与 代码 清单 8.6 相 比 ， 这 里 的 惟一 不 同 是 对 循环 的 处 理 。 


代码 清单 8.8 ”活跃 变量 分 析 的 文法 ， 其 中 包含 REPEAT 循环 


LiveVars lpass:int linlive:set Toutlive:set 


一 «MODULE body» 
body:LiveVars 41 lempty Tmidlive { 第 一 次 遍历 程序 ) 
body:LiveVars 42 lempty Toutlive { 第 二 次 遍历 已 是 最 终 的 结果 ) 
一 «Assign <ID>%name expn> 
[exclude name linlive Tasnset] { 从 传 入 集中 删除 名 字 } 
[useless = (inlive = asnset)] { 标注 该 变量 是 否 不 在 其 中 ) 
expn:LiveVars Jasnset Toutlive { 将 结果 传递 给 表达 式 ) 
> «Assign <ID>%name expn>%useless { 对 结 点 加 以 装饰 ， 以 提示 代码 生成 } 
一 <ID>%name 
[addset linlive lname Toutlive] { 将 名 字 添 加 到 当前 正 处 理 的 集合 中 } 
一 <NUM>%value 
[outlive = inlive] { 忽略 常量 } 
一 «Read <ID>%name> 
[exclude name linlive Toutlive] { 从 传 入 集中 删除 名 字 ) 
> <Write expn> 


expn:LiveVars lpass linlive Toutlive { 传递 集合 ， 使 之 流 经 表达 式 } 


一 «Semi left rite» | «Less left rite» | <Equal left rite» | «Grtr left rite» | 
«Plus left rite» | «Minus left rite» | «Star left rite» | «Divd left rite» 
rite:LiveVars lpass liniive Tmidlive { 使 集合 流 经 表达 式 和 语句 序列 } 
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left:LiveVars Jpass lmidlive Toutlive ( 注意 是 从 右 到 左 流动 } 


一 «IF expn then else» 
then:LiveVars Jpass linlive Tthnlive  ( 使 集合 同时 流 经 then 和 else 部 分 } 
else:LiveVars Jpass Jinlive Telslive 
[union Jthnlive Jelslive Texpnlive] { 将 其 并 集 传 递 给 表达 式 } 


expn:LiveVars lpass lexpnlive Toutlive 


一 «REPEAT body expn>%looplive 
([pass = 1; exitlive = inlive] C 车 第 一 次 遍历 , 使 用 当前 正 处 理 的 集合 } 
| [pass = 2; exitlive = looplive]) { 否则 使 用 上 一 次 遍历 的 结果 } 
[union Jexitlive Jinlive Texpnlive] { 与 传 入 集合 并 } 


expn:LiveVars lpass lexpnlive Tbodlive 
body:LiveVars Jpass lbodlive Toutlive { 使 集合 流 经 循环 体 } 
=> <REPEAT expn body>%outlive 对 结 点 进行 装饰 , 以 备 下 一 次 遍历 } 
REPEAT 结 点 的 新 产生 式 将 流 经 循环 体 的 位 向 量 保存 为 树 结 点 的 一 个 装饰 ， 该 结 点 的 装饰 
可 用 于 下 一 次 遍历 。 在 第 一 次 遍历 时 ， 该 装饰 并 没有 上 一 个 副本 可 供 使 用 ， 因 而 取而代之 的 是 
到 达 循 环 出 口 处 的 待 处 理 活 跃 变量 集 ; 它 将 使 用 集合 并 运算 与 到 达 循 环 出 口 处 的 待 处 理 集合 合 
并 在 一 起 ,合并 结果 流向 布尔 控制 表达 式 ， 从 而 到 达 主 循环 体 。 活 跃 变量 集 流出 循环 体 时 ， 将 
沿 树 向 上 向 左 传递 ; 同时 保留 一 个 副本 作为 该 结 点 的 装饰 ， 以 供 下 次 迭代 时 使 用 。 
活跃 变量 分 析 并 不 是 严格 单调 的 ， 因 为 注销 变量 时 将 从 正在 处 理 的 集合 中 删除 这 些 元 素 。 
这 意味 着 在 程序 树 上 的 两 次 所 历 过 程 中 ， 对 于 包含 两 层 灵 套 的 wuILE 循环 结构 ， 如 果 外 层 的 
控制 表达 式 注销 了 一 个 变量 〈 可 能 是 将 它 作 为 变 参 传 递 给 某 个 函数 ， 并 且 已 知 该 函数 的 副作用 
会 改变 它 的 值 )， 内 循环 的 循环 体 将 看 到 该 变量 仍 是 活跃 的 。 这 在 安全 性 方面 犯 了 错误 ， 并 且 
仅 当 采用 拙劣 的 程序 设计 风格 时 才 有 问题 。 很 少 实用 的 数据 流 分 析 算 法 是 真正 单调 的 ， 但 我 们 
一 旦 意识 到 这 一 点 ， 即 可 有 把 握 地 忽略 这 类 缺乏 单调 性 的 问题 ， 只 是 在 非常 罕见 的 情况 下 ， 才 
会 产生 比 最 优 情况 略 多 的 代码 。 
值得 注意 的 是 REPEAT 循环 并 不 会 出 现 这 一 问题 , 因为 在 循环 体 与 控制 表达 式 求 值 之 间 并 
不 存在 控制 路 径 的 中 断 。 一 个 WHILE 循环 的 基本 块 最 小 数目 为 2， 如 图 8-14 所 示 。 我 们 将 发 
更 有 儿 类 优化 工作 在 REPEAT 循环 上 执行 时 ， 略 优 于 在 WHILE 循环 上 执行 。 奇 特 的 是 ， 最 初 
FORTRAN 编译 程序 的 po 循环 拥有 当时 非常 复杂 的 优化 技术 ， 其 机 制 更 像 REPEAT 循环 ， 而 
不 是 WHILE 循环 。 一 个 DO 循环 保证 至 少 执行 一 次 ， 即 使 其 控制 变量 的 值 域 为 空 。 


x; REPEAT y UNTIL e; z; x; WHILE e DO y END; z; 


~ 









图 8-14 REPEAT 与 WHILE 循环 在 结构 上 的 差异 
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8.8 实用 优化 变换 综述 


在 深入 掌握 了 分 析 与 变换 机 制 后 ， 现 在 可 讨论 编译 程序 中 常用 的 优化 技术 。 本 小 节 将 集中 
讨论 那些 容易 改写 为 TAG 实现 的 优化 ， 第 9 章 再 探讨 某 些 需 特别 考虑 的 优化 。 

X 8-1 总 结 了 在 研究 文献 中 已 提出 的 20 种 不 同 的 优化 , 并 指出 了 每 种 优化 所 需 的 分 析 方 法 
以 及 变换 的 类 型 。 本 质 上 有 四 类 分 析 技 术 和 三 类 通用 的 变换 , 后 文 将 逐一 讨论 这 些 分 析 与 变换 。 


表 8-1 20 种 优化 变换 , 同时 列 出 了 其 分 析 与 变换 的 类 型 。 
表 中 的 数字 是 指 在 本 书 第 几 章 讨论 了 这 些 优 化 技术 
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8 消除 

8 消除 

8 消除 

s 移动 

9 选择 、 消 除 
9 移动 (复制) 
8 移动 

9 移动 

9 消除 

8 消除 

8 移动 

8 消除 

9 选择 

9 选择 

8 消除 

9 选择 

9 选择 

9 移动 

8 | 数学 等 式 选择 、 消 除 
9 ah 


本 书 已 用 不 少 篇 幅 讨论 了 数据 流 分 析 ， 这 是 代码 优化 中 所 需 的 最 常见 分 析 技术 。 数 据 流 分 
析 包 括 从 左 到 右 、 或 从 右 到 左 遍 历程 序 树 ， 并 在 分 又 处 可 通过 并 运算 或 交 运 算 积累 集合 数据 。 
尽管 这 看 起 来 像 是 优雅 地 划分 了 不 同 的 种 类 ,但 还 应 注意 到 某 些 形式 的 数据 流 分 析 必 须 扩 展 数 
据 ， 这 些 数据 只 能 与 数学 上 的 格 相 匹配 。 此 外 ， 由 于 并 运算 和 交 运 算 在 数学 上 是 对 偶 的 ， 采 用 
并 运算 的 任何 分 析 均 可 转换 为 采用 交 运 算 的 互补 术语 。 这 个 世界 并 不 是 总 能 够 以 优雅 的 数学 范 
畴 来 划分 的 。 

“模拟 执行 ”有 时 又 称 “部 分 求 值 ”， 是 指 在 编译 时 尽 可 能 多 地 尝试 执行 一 个 程序 ， 部 分 求 
值 结果 将 会 保存 起 来 ， 以 备 在 运行 时 完成 求 值 。 它 实际 上 是 一 种 向 前 数据 流 分 析 ， 不 仅 携带 了 
集合 ， 而 且 还 包括 变量 和 寄存 器 的 内 容 、 机 器 状态 以 及 其 他 类 型 的 信息 。 

“程序 统计 ”关注 在 一 个 类 似 数据 流 的 程序 遍历 中 可 收集 的 信息 ， 但 由 于 它 是 上 下 文 无 关 
的 ， 所 以 并 没有 处 理 次 序 的 限制 。 通 常 ， 它 会 计算 某 一 上 下 文中 标识 符 引 用 的 个 数 ， 或 估计 一 
棵 子 树 中 生成 的 指令 数目 ， 诸 如 此 类 。 

“循环 结构 分 析 ” 关 注 程 序 中 控制 循环 的 参数 。 大 多 数 程序 执行 时 间 花 费 在 程序 的 内 循环 ， 
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因而 已 有 大 量 研究 深入 探讨 对 循环 结构 的 分 析 ， 以 期 达到 改进 其 性 能 的 目标 。 

“代码 消除 ”是 一 种 变换 ， 通 常 是 从 程序 树 中 前 除 并 丢弃 多 余 的 分 枝 。 为 在 完成 代码 消除 
时 仍 能 保持 正确 性 ， 往 往 还 需要 对 程序 中 的 其 他 部 分 进行 一 些小 变换 。 

“代码 移动 ”是 对 程序 树 的 一 种 变换 ， 它 将 代码 从 程序 经 常 执行 的 地 方 〈 例 如 循环 ) 转移 
到 不 那么 经 常 执行 的 地 方 ; 它 也 可 以 是 将 代码 转移 到 离 它 被 使 用 的 位 置 更 近 的 地 方 ， 从 而 可 减 
少 访问 的 开销 。 与 此 相关 的 优化 还 有 复制 代码 的 某 一 部 分 ， 以 最 大 程度 减少 循环 和 过 程 中 开销 
较 大 的 判定 操作 。 如 前 所 述 ，TAG 中 的 代码 移动 由 两 个 步骤 组 成 ， 从 程序 中 的 某 一 部 分 前 除 一 
棵 子 树 ， 然 后 将 它 嫁接 到 另 一 部 分 。 

“代码 选择 ”与 输出 代码 的 选择 密切 相关 。 与 其 说 代码 选择 是 一 种 程序 树 的 变换 ， 倒 不 如 
说 是 为 了 准备 最 后 一 遍 的 树 平展 代码 生成 而 装饰 该 程序 树 。 

8.8.1 ”模拟 执行 优化 的 类 别 

表 8-1 中 有 六 种 优化 技术 将 模拟 执行 列 为 其 支撑 分 析 技 术 。 基 于 模拟 执行 的 分 析 通 常 可 与 
优化 变换 同时 执行 。 模 拟 执 行 基本 上 按 执行 次 序 遍 历 一 棵 程序 树 ， 并 且 对 循环 和 分 叉 予 以 特殊 
考虑 。 尽 可 能 多 地 对 每 一 条 表达 式 进行 “ 求 值 ” 并 “执行 ”每 一 条 语句 ， 从 而 在 编译 时 确定 
寄存 器 和 变量 的 内 容 等 〈 如 果 无 法 确定 实际 的 值 ， 则 用 它们 的 信息 来 源 表示 )。 

如 果 可 以 知道 实际 的 值 ， 那 么 这 些 寄存 器 或 变量 将 是 常量 ， 因 而 可 对 树 进 行 变换 ， 以 这 些 
常量 代替 变量 写 入 程序 中 ;， 如 果 只 能 确定 这 些 值 的 来 源 ， 那 么 模拟 执行 将 寻找 一 些 相似 之 处 ， 
这 些 相似 之 处 意味 着 有 机 会 保存 并 复 用 中 间 结 果 值 。 

常量 值 分 析 产 生 的 结果 是 常量 折 县 和 消除 死 代 码 ， 并 且 只 要 再 多 做 一 些 工 作 ， 还 可 实现 省 
略 范围 检查 。 公 共 子 表达 式 分 析 产 生 的 结果 是 消除 公共 子 表达 式 、 复 写 传 播 和 左 移动 提升 。 
882 RHEN 

用 于 常量 值 分 析 的 数据 结构 组 成 如 下 : 每 一 待 追踪 的 变量 均 有 一 个 值 字段 ， 以 及 一 个 标志 
表明 该 值 是 否 未 知 的 ， 如 果 有 可 能 ， 该 标志 也 许 是 值 字段 中 一 个 可 区 分 的 特殊 值 。 通 常 这 种 分 
析 仅 限于 标量 变量 ， 即 整数 类 型 、 布 尔 类 型 、 字 符 类 型 、 枚 举 类 型 以 及 它们 的 子 界 类 型 等 ， 但 
不 会 是 集合 、 数 组 或 记录 类 型 。 将 实数 类 型 包括 在 内 是 可 能 的 ， 但 不 鼓励 这 样 做 ， 因 为 从 事 数 
值 分 析 的 人 喜欢 拥有 对 实数 表达 式 求 值 的 绝对 控制 。 如 果 将 信息 量 加 倍 ， 从 而 为 每 一 标量 变量 
保存 其 上 界 和 下 界 ， 即 可 支持 范围 分 析 ， 但 为 保证 正确 地 处 理 循 环 ， 推 荐 首先 完成 循环 结构 的 
分 析 。 

从 左 到 右 遍 历 一 棵 程序 树 时 ,一 个 由 所 有 变量 的 范围 信息 组 成 的 从 左 到 右 属性 将 作为 一 个 
继承 属性 、 然 后 作为 一 个 综合 属性 在 分 析 文 法 的 每 一 条 产生 式 中 传播 ， 与 约束 检查 中 传播 符号 
表 十 分 类 似 。 实 际 上 ， 符 号 表 几 乎 就 是 实现 这 一 数据 结构 的 最 佳 方案 ,惟一 区 别 是 每 一 变量 的 
值 对 在 执行 新 的 赋值 时 必须 更 新 ， 并 且 访 问 变量 的 方式 不 是 通过 名 字 ， 而 是 通过 它们 惟一 的 变 
量 编号 。 

除了 在 树 中 传播 值 集合 之 外 ， 表 达 式 子 树 还 将 合成 当前 表达 式 的 范围 (或 值 )。 只 要 一 个 
范围 的 上 界 与 下 界 是 一 致 的 〈 即 已 知 该 值 为 一 个 常量 )， 合 成 该 值 的 表达 式 子 树 即 可 被 前 除 ， 
代 之 以 一 个 具有 这 个 值 的 常量 结 点 。 这 一 剪 枝 动作 通常 会 被 推迟 ， 直 至 该 表达 式 用 于 一 个 更 大 
的 非常 量 表达 式 中 ， 或 赋值 给 一 个 变量 ， 或 用 于 其 他 场合 (例如 用 作 rr 语句 的 控制 表达 式 )。 

当 一 条 IF 或 CASE 语句 的 控制 表达 式 是 一 个 常量 时 ， 就 有 可 能 不 仅 只 剪除 该 子 表达 式 的 
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子 树 ， 而 且 还 可 能 剪除 因为 该 常量 值 而 不 可 达 的 分 支 情况 的 所 有 子 树 。 这 种 优化 技术 称 为 消除 
死 代 码 ， 因 为 这 些 不 可 达 的 代码 树 被 认为 是 “ 死 的 ”， 意 即 它们 无 法 被 执行 。 实 质 上 ， 消 除 死 
代码 为 程序 员 提 供 了 一 种 免费 的 条 件 编译 效果 , 因为 如 果 包 含 在 一 条 IF 语句 的 THEN 或 ELSE 
部 分 之 中 ， 那 么 整 块 程序 文本 将 不 生成 任何 代码 ; 这 取决 于 一 个 具有 合适 值 的 常量 ， 可 能 是 一 
个 全 局 常量 。 

在 范围 分 析 过 程 中 遇 到 一 个 对 标量 变量 的 赋值 时 ， 该 变量 的 范围 值 被 设置 为 根据 被 求 值 的 
表达 式 推导 出 的 范围 (如 果 不 是 执行 全 面 范围 分 析 ， 则 直接 复制 该 值 和 标志 )。 通 常 ， 对 一 个 
标量 变量 的 赋值 将 导致 生成 相应 的 范围 检查 代码 , 但 是 这 一 检测 可 在 编译 时 的 范围 分 析 阶 段 完 
成 : 如 果 求 值 结果 的 范围 安全 地 落 在 一 个 或 两 个 边界 中 ， 那 么 这 个 赋值 语句 结 点 可 用 一 个 标志 
来 装饰 ， 该 标志 用 于 指示 代码 生成 程序 消除 相应 的 测试 与 报错 陷阱 。 数 组 的 下 标 和 CASE 表达 
式 的 索引 亦 可 采用 相同 的 编译 时 检测 。 

代码 清单 8.9 的 文法 片段 展示 了 常量 折 辣 与 相关 优化 (省略 范 围 检查 以 及 消除 死 代码 ) 的 
分 析 与 变换 的 基本 形式 。 这 里 假设 分 析 程序 或 约束 程序 构造 赋值 语句 结 点 时 ， 有 第 三 棵 子 树 包 
含 了 范围 检查 的 边界 ， 该 子 树 中 的 一 个 室 结 点 表示 代码 生成 程序 不 必 执 行 检 查 。 


代码 清单 8.9 常量 折 释 的 分 析 与 变换 文法 


ConStmt linvars:table Toutvars:table 








一 <Assign <ID>%name expn bounds> 
expn:ConExpn linvars Tevars Texlo Texhi { 在 表达 式 中 寻找 常量 ) 
[replace Jname lexlo lexhi levars Toutvars] { 更 新 值 范围 集合 } 
bounds:RngCheck lexlo lexhi 修改 范围 检查 子 树 } 


~ 


> «Read <ID>%name> 
[replace Jname i-e lic linvars Toutvars]  ( 更 新 值 范围 集合 } 


一 «Semi left rite» 
left:ConStmt linvars Tmidvars 
rite:ConStmt midvars Toutvars 


令 集 合流 经 语句 } 


e 


一 this:«IF expn then else» 
expn:ConExpn linvars Tevars Texlo Texhi 
then:ConStmt levars Tthnvars 
else:ConStmt levars Telsvars 
([exlo = 1; outvars = thnvars; nutree = then] { 为 真 则 代 之 以 then 部 分 } 
| [exhi = 0; outvars = elsvars; nutree = else] { 为 假 则 代 之 以 else 部 分 } 
|[otherwise; merge Jthnvars Jelsvars Toutvars] { 和 否则， 传递 出 其 并 集 } 
[nutree = this]) 

> nutree 


在 表达 式 中 寻找 常量 } 
令 集 合流 经 then 和 else 部 分 } 


c c 


ConExpn linvars:table Toutvars:table Tloval:int Thival:int 
一 <ID>%name 
[lookup Jname Jinvars Tloval Thival] { 从 当前 正 处 理 的 集合 取 名 字 } 


[outvars = invars] 


一 <NUM>%value 
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[outvars = invars; loval = value; hival = value] { 范围 为 常量 } 


this:«Less left rite» 
left:ConExpn linvars Tmidvars Tleftlo Tlefthi ( 令 集 合流 经 子 表达 式 } 
rite:ConExpn lmidvars Toutvars Tritelo Tritehi 
([lefthi < ritelo; loval = 1; hival = 1; nutree = <NUM>$1] 

{ RZA true, dE T,T } 
| [leftlo 2 ritehi; loval = 0; hival = 0; nutree = <NUM>%0] 

( 代 之 以 false, AMF,P } 
| [otherwise; loval = 0; hival = 1; nutree = this]) 

{ 两 者 都 不 是 ， 合 成 F,T } 


nutree 


this:<Equal left rite> 
left:ConExpn linvars Tmidvars Tleftlo Tlefthi 

{ 令 集 合流 经 子 表 达 式 } 
rite:ConExpn Jmidvars Toutvars Tritelo Tritehi 
([lefthi < ritelo; loval = 0; hival = 0; nutree = «NUM»-$0] 

{ 代 之 以 false, @MPF,F } 
| [leftlo > ritehi; loval = 0; hival = 0; nutree = <NUM>%0] 
|{lefthi = ritelo & leftlo = ritehi; loval = 1; hival = 1; nutree = <NUM>%1] 

{ 代 之 以 true， 合 成 T,T } 

| [otherwise; loval = 0; hival = 1; nutree = this]) 

{ 两 者 都 不 是 ， 合 成 F,T } 


nutree * 


this:«Plus left rite» 
left:ConExpn linvars Tmidvars Tleftlo Tlefthi 
{ 令 集合 流 经 子 表 达 式 ) 
rite:ConExpn Jmidvars Toutvars Tritelo Tritehi 
{loval = leftlo + ritelo; hival = lefthi + ritehi] 


合成 两 者 之 和 的 范围 } 


([loval = hival; nutree = <NUM>%loval] { 如 此 则 代 之 以 常量 结 点 } 
| [otherwise; nutree = this]) 
nutree 


this:<Minus left rite> ` 
left:ConExpn linvars Tmidvars Tleftlo Tlefthi 
{ 令 集 合流 经 子 表达 式 } 
rite:ConExpn dmidvars Toutvars Tritelo Tritehi 
{loval = leftlo - ritehi; hival = lefthi - ritelo] 
{ 合成 两 者 之 差 的 范围 } 


({loval = hival; nutree = «NUM»£10oval] { 如 此 则 代 之 以 常量 结 点 } 
| [otherwise; nutree = this]) 
nutree 


this:<Star left rite> 

left:ConExpn Jinvars Tmidvars Tleftlo Tlefthi 

rite:ConExpn Jmidvars Toutvars Tritelo Tritehi 

[loval =min(leftlo* ritelo, leftlo * ritehi, lefthi * ritelo, lefthi * ritehi) ] 
[hival = max (leftlo * ritelo, leftlo * ritehi, lefthi * ritelo, lefthi * ritehi)] 
({loval = hival; nutree = <NUM>%loval] C 如 此 则 代 之 以 常量 结 点 } 
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| [otherwise; nutree = this]) 
> nutree 


RngCheck lexlo:int lexhi:int 


一 «RngChk <NUM>%loval <NUM>%hival> 

[loval € exlo & hival 2 exhi] { 在 范围 之 中 ，. . ，} 
> <RngChk <> <>> { 故 删 除 两 个 边界 的 检查 } 
一 «RngChk <NUM>%loval <NUM>%hival> 

[loval < exlo & hival < exhi] 
> <RngChk <> <NUM>%hival> { 删除 下 界 的 检查 } 
一 «RngChk <NUM>%loval <NUM>%hival> 

[loval > exlo & hival 2 exhi] 
> <RngChk <NUM>%loval <>> { 删除 上 界 的 检查 } 
一 <RngChk <NUM>%loval <NUM>%hival> 

[loval > exlo & hival < exhi] { 不 知 是 否 在 范围 中 ， ) 
> <> ; C 故 不 消除 任何 范围 检查 } 


内 置 属性 求 值 函数 replace 创建 一 个 新 的 值 表 ， 其 中 某 一 特定 变量 的 范围 被 两 个 给 定 
的 值 取 代 。 注 意 实现 该 函数 时 必须 小 心 ， 因 为 旧 的 表 也 可 能 沿 分 叉 的 其 他 分 枝 向 下 传递 并 独 
立地 更 新 。 因 而 ， 这 里 很 重要 的 一 点 是 应 将 属性 保存 为 一 个 值 ， 而 不 是 一 个 可 能 被 改变 的 数 
据 结 构 。 

属性 求 值 函数 merge 接受 两 个 范围 表 (通常 派生 自 单个 父 结 点 )， 并 创建 一 个 新 表 ， 其 中 
每 一 变量 的 范围 是 两 个 输入 表 中 相应 范围 的 合并 。 因 而 对 每 一 变量 而 言 , Loout = min(LoIn1， 
LoIn2)H HiOut = max(HiIn1, HiIn2)。 这 些 求 值 函数 的 实现 留待 读者 自己 完成 。 应 注意 到 
格 的 底 范围 不 包含 任何 值 ( 可 表示 为 [-~%, too] BRL, 0], 或 任意 其 他 空 范围 ), 在 分 析 开 始 时 将 用 
于 初始 化 所 有 变量 的 表 。 另 一 种 做 法 是 ， 如 果 分 析 从 一 个 空 表 开始 ， 底 范围 可 作为 一 个 特殊 的 
值 ， 表 示 变 量 仍 未 加 入 到 表 中 。 

还 有 一 种 实用 的 变换 在 代码 清单 8.9 中 未 展示 出 来 ， 即 查找 那些 带 有 不 相 邻 常 量子 树 的 双 
运算 符 的 树 片 段 , 如 图 8-15 中 的 例子 所 示 。 尽 管 将 累加 的 常量 向 上 移 至 表达 式 树 的 根 结 点 并 未 
直接 引起 代码 的 简化 或 约 简 , 但 其 结果 是 这 种 形式 的 表达 式 树 在 编译 程序 生成 的 下 标 表 达 式 中 
很 常见 ， 它 的 最 后 一 个 操作 是 一 个 内 存 引用 。 大 多 数 计算 机 支持 一 种 索引 偏 移 量 寻 址 模式 ， 该 
寻 址 模式 实际 上 是 让 一 个 几乎 没有 什么 开销 的 常量 加 法 作为 地 址 表达 式 计 算 的 最 后 操作 ; 因而 
在 这 种 情况 下 ， 将 常量 之 和 的 项 传播 到 表达 式 树 的 根 结 点 可 产生 更 快 、 更 紧凑 的 代码 。 

代码 清单 8.9 中 的 文法 片段 也 未 展示 循 
环 中 的 常量 折 彼 。 类 似 于 数据 流 分 析 ， 只 需 (+) (+) 

两 次 遍历 就 足以 检测 出 常量 表达 式 和 变量 ， 


但 是 全 面 范围 检查 还 需要 一 些 关 于 循环 结构 (=) Dm) © 


的 信息 ， 稍 后 在 讨论 此 类 优化 时 ， 我 们 再 更 
深入 地 探讨 这 一 课题 。 读 者 不 妨 自 己 修改 该 o © 
文法 以 消除 范围 检查 ， 并 正确 地 处 理 循环 中 E) © 


的 常量 表达 式 。 8-15 将 累加 的 常量 移 至 表达 式 树 的 根 结 点 
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8.8.3 ”使 用 值 编号 检测 公共 子 表达 式 

与 常量 折 警 类似， 消除 公共 子 表达 式 〈CSE) 时 在 程序 树 中 传播 的 数据 结构 也 是 一 个 符号 
表 。 然 而 在 这 种 情况 下 ， 用 于 访问 表 中 一 个 入 口 的 “名 字 ” 是 一 个 子 表 达 式 结 点 ， 而 不 只 是 一 
个 变量 的 编号 。 这 样 的 一 个 名 字 在 表 中 的 “ 值 ”是 一 个 对 计算 该 子 表 达 式 的 子 树 的 引用 。 当 对 
一 棵 树 进 行 遍历 以 检查 子 表达 式 时 ， 会 在 表 中 查找 每 一 结 点 ; 如 果 找 到 ， 则 将 树 变 换 为 使 用 一 
个 存储 了 该 值 的 临时 变量 。 

这 里 的 算法 是 首先 由 J. Cocke # J.T. Schwartz 于 1970 年 发 表 的 “ 值 编号 ”系统 的 一 种 简化 
版 。 他 们 先 对 值 进 行 编号 ， 然 后 为 该 表达 式 构造 一 个 有 向 无 环 图 (DAG)， 其 中 直接 使 用 了 一 个 
指向 原 有 子 表 达 式 树 的 引用 〈 指 针 )。 另 一 些 研究 人 员 建 议 采 用 一 种 “可 用 表达 式 ” 的 数据 流 分 
析 技 术 [Aho&Ullman, 1973]， 但 本 质 上 两 者 是 相同 的 计算 ， 只 是 后 者 的 表述 方法 不 够 浅显 易 懂 。 

子 表达 式 结 点 的 信息 作为 一 个 标识 符 登 记 到 表 中 ， 它 由 一 个 运算 符 《〈 结 点 名 字 ) 及 其 操作 
数 的 值 编号 组 成 。 因 而 一 个 二 元 运算 符 结 点 包括 三 个 部 分 ， 即 便 采 用 了 数值 类 型 的 值 编号 ， 产 
生 的 记录 依然 太 大 ， 不 利于 方便 、 快 捷 的 表 查 找 操作 。 为 取得 合理 的 符号 表 查 找 性 能 ， 推 荐 对 
子 表达 式 的 特征 进行 散 列 〈 参 阅 第 3 章 关于 散 列表 技术 的 讨论 )。 利 用 一 个 合适 的 大 型 散 列 表 ， 
查找 时 间 可 减少 到 每 次 访问 仅 需 要 一 次 或 两 次 比较 运算 。 散 列表 中 活跃 的 入 口 通常 由 可 见 的 变 
量 以 及 不 超过 几 十 个 的 可 用 表达 式 组 成 ， 因 而 将 表 的 大 小 设置 为 100—500 已 经 非常 充足 ， 特 
别 是 在 诸如 Modula-2 这 类 限制 了 非 局 部 标识 符 可 见 性 的 语言 中 。 

商用 编译 程序 通常 不 考虑 全 局 消除 公共 子 表 达 式 ， 因 为 一 般 认 为 这 类 优化 需要 在 整个 程序 
中 和 迭代 执行 数据 流 分 析 。 本 书 采 用 一 种 单调 的 算法 ， 从 而 将 程序 图 限制 为 树 ， 只 用 两 次 遍历 即 
可 取得 优化 的 代码 。 然 而 可 证 明 ， 第 一 次 遍历 只 需 找 出 循环 中 被 修改 的 变量 ， 而 模拟 执行 仅 用 
一 次 遍历 即 可 完成 。 

为 展示 消除 公共 子 表达 式 的 算法 是 如 何 工作 的 , 考虑 图 8-16 所 示 的 程序 树 。 树 中 的 结 点 采 
用 罗马 数字 编号 ， 对 应 于 表 8-2 中 的 值 表 序 列 。 值 编号 作为 属性 沿 树 向 上 传递 ， 在 图 中 用 空心 
阿拉 伯 数 字 表 示 。 从 顶部 开始 遍历 该 树 时 ， 表 达 式 表 为 空 结 点 让 ， 另 一 种 做 法 是 将 该 表 初 始 
化 为 包含 全 部 活跃 变量 ， 且 将 所 有 值 编号 均 初始 化 为 只 是 指向 自身 的 引用 。 
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图 8-16 消除 公共 子 表达 式 示例 。 小 罗马 数字 对 应 于 表 8-2 中 的 快 
Ru. 空心 数字 是 值 编 号 〈 详 细 解 释 请 参阅 本 书 相应 内 容 ) 
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表 8-2 8-16 的 值 编号 表 序 列 
i j (28) 


üi 


vi 


viii 
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首先 过 到 的 稍 复 杂 结 点 是 一 条 赋值 语句 。 按 深度 优先 的 模拟 执行 次 序 向 下 访问 其 表达 式 子 
树 ， 将 到 达标 识 符 结 点 b 并 返回 值 编号 1， 指 向 变量 b 中 的 这 一 特定 的 值 ( 并 不 是 b 中 的 任意 
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值 ， 而 是 在 执行 过 程 中 这 一 时 刻 b 所 包含 的 值 )。 乘 法 结 点 的 右 子 表 达 式 中 ， 常 量 5 返回 的 值 
编号 为 2， 此 时 乘法 结 点 有 一 个 复合 值 (*, 1, 2)， 该 值 不 在 表 中 ; 它 将 作为 值 编 号 3 登记 到 表 
中 《 结 点 iD. 并 且 该 值 编号 沿 树 向 上 传递 给 加 法 结 点 。 值 编号 3《 刚 刚 形成 的 ) 和 值 编号 4( 常 
量 3) 以 类 似 的 方式 相 加 ， 为 复合 表达 式 (+, 3, 4) 产生 一 个 新 的 值 编 号 5。 赋 值 运算 符 为 变量 
a 将 一 个 新 的 值 登记 到 表 中 ， 该 值 即 是 相同 的 值 编号 5〈 结 点 iv)。 

上 述 例子 的 第 二 条 赋值 语句 中 ， 变 量 b 已 在 表 中 且 值 编号 为 1， 故 不 必修 改 符号 表 即 可 使 
用 该 值 ， 类 似 地 ， 常 量 5 返回 的 值 编号 为 2。 乘 法 结 点 合成 一 个 表达 式 (*, 1, 2)， 并 发 现 该 表 
达 式 也 已 在 表 中 ， 且 值 编号 为 3。 该 值 再 次 沿 树 向 上 传递 到 赋值 运算 符 ， 这 相当 于 在 程序 运行 
时 车 到 达 了 程序 中 的 这 一 位 置 ， 则 已 计算 出 积 b * 5。 变量 c 以 值 编号 3 登记 到 表 中 ( 结 点 VD 
为 这 第 二 个 乘法 生成 的 实际 代码 通常 只 是 一 个 寄存 器 的 存储 操作 ， 该 寄存 器 包含 了 已 保存 的 中 
间 值 。 在 第 三 条 赋值 语句 中 ， 变 量 c 返回 值 编 号 为 3， 并且 在 查 表 时 表达 式 〈+, 3,4) 立即 返 
回 值 编号 5， 这 一 值 编 号 取代 了 变量 b 先前 的 值 〈 结 点 vi)。 

在 该 例 的 最 后 一 条 赋值 语句 中 ， 又 遇 到 子 表达 式 b * 5， 但 变量 b 中 的 值 已 改变 。 因 而 ， 
在 表 中 查找 复合 表达 式 〈*, 5, 2) 时 ， 该 表达 式 不 存在 ， 故 必须 添加 到 表 中 【〈 结 点 vii); 这样 导 
出 的 一 个 新 的 值 编号 6 成 为 变量 e 的 值 ， 取 代 了 变量 e 先前 的 内 容 〈 结 点 yiii)。 

当 分 析 进 行 到 这 一 位 置 时 ， 值 编号 3 是 不 可 访问 的 ， 因 为 其 名 字 为 值 编 号 1 和 2 的 积 ， 而 
值 编号 1 根本 就 已 不 在 表 中 。 如 果 只 是 在 一 个 基本 块 中 运用 消除 公共 子 表 达 式 的 算法 ， 这 些 碎 
片 几乎 没有 积累 的 机 会 ， 并 占用 过 量 的 编译 时 存储 空间 。 但 在 全 局 子 表达 式 分 析 中 ， 有 希望 以 
这 一 方式 消除 已 被 注销 的 值 编号 。 只 要 一 个 变量 被 赋予 一 个 新 的 值 编号 ， 在 其 名 字 中 包含 旧 值 
的 任何 其 他 值 编号 也 可 被 清除 。 这 可 以 递归 地 应 用 尽管 上 述 例子 并 不 属于 这 种 情况 )， 壁 如 
这 些 刚 死去 的 值 编号 还 将 导致 消除 以 这 些 值 编号 部 分 命名 的 其 他 值 编号 。 

代码 清单 8.10 中 的 文法 片段 展示 了 消除 公共 子 表达 式 的 分 析 与 变换 的 基本 形式 。 新 的 内 署 
属性 求 值 函数 compose 接受 一 个 结 点 名 字 【〈 表 示 为 一 个 无 任何 子 树 的 结 点 构造 算 子 ) 和 两 个 
值 编号 ， 返回 一 个 可 用 于 在 符号 表 中 查找 该 表达 式 的 新 的 值 编号 名 字 。 该 函数 的 工作 原理 实际 
上 与 第 3 章 介绍 的 字符 串 表 机 制 相似 , 其 实现 留待 读者 完成 。 代 码 清单 8.10 中 的 文法 片段 仅 展 
示 了 两 个 表达 式 结 点 ; 除 结 点 名 字 之 外 ， 所 有 表达 式 的 处 理 是 相同 的 。 


代码 清单 8.10 ”消除 公共 子 表达 式 的 文法 片段 


CSEStmt linvals:table Toutvals:table 





一 «Assign <ID>%name expn> 
expn:CSEExpn linvals Tevals Tvaltree { 取 表 达 式 的 值 编号 } 
[replace Jname lvaltree Jevals Toutvals] ( 更 新 值 编号 表 } 
> <Assign <ID>%name valtree> { 用 新 的 树 取代 表达 式 树 } 
一 unique:«Read <ID>%name> 


[replace Jname lunique Jinvals foutvals]  ( 给 它 一 个 新 的 值 编 号 } 


一 «Semi left rite» 
left:iCSEStmt linvals Tmidvals ( 令 集 合流 经 语句 } 
rite:CSEStmt Jmidvals Toutvals 
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一 «IF expn then else» 
expn:CSEExpn linvals Tevals Tvaltree { 取 表 达 式 的 值 编号 } 
then:CSEStmt levals Tthnvals ( 令 集合 流 经 chen 和 else 部 分 } 


else:CSEStmt levals Telsvals 
[mergevals lthnvals leisvais Toutvals] ( 传递 出 其 并 集 3 
=> <IF valtree then else> ; { 用 新 的 树 取代 表达 式 树 } 


CSEExpn linvals:table Toutvals:table Tvaltree:tree 


一 valtree:<ID>%name 
[compose l<rp> Jname i0 Tvalno] . { 计算 一 个 值 编 号 } 
[lookup lvalno linvals Ttableval] { 在 表 中 查找 该 值 编号 } 


([tableval = «»; valtree = vartree] 
[replace Jname lvartree linvals Toutvals] ( 如 果 不 存在 则 加 入 表 中 ) 


| [otherwise; outvals = invals; valtree = tableval]) 


一 contree:<NUM>%value 
[compose 4<NUM> lvalue 40 Tvalno] { 计算 一 个 值 编号 } 
[lookup valno linvals Ttableval] { 在 表 中 查找 该 值 编 号 } 


([tableval = «»; valtree = contree] 
[replace lname lcontree linvals Toutvals] { 如 果 不 存在 则 加 入 表 中 } 


|[otherwise; outvals = invals; valtree = tableval]) 


一 exptree:«Less left rite» 
left:CSEExpn Jinvals Tmidvals Tleftval { 令 集 合流 经 子 表达 式 } 
rite:CSEExpn Jmidvals Texpvals Triteval 
[compose l«Less» lleftval lriteval Tvalno] ( 计算 一 个 值 编号 } 
[lookup Jvalno linvals Ttableval] { 在 表 中 查找 该 值 编 号 } 
([tableval = «»; valtree = exptree] 
[replace name lexptree lexpvals Toutvals] { 如 果 不 存 在 则 加 入 表 中 } 


| [otherwise; outvals = expvals; valtree = tableval]) 


=> <Less leftval riteval> { 取代 子 表 达 式 树 } 


一 exptree:«Plus left rite» 
left:CSEExpn linvals Tmidvals Tleftval { 令 集 合流 经 子 表达 式 ) 
rite:CSEExpn lmidvals Texpvals Triteval 
[compose J<Plus> lleftval Jriteval Tvalno] { 计算 一 个 值 编号 } 
[lookup Jvalno linvals Ttableval] { 在 表 中 查找 该 值 编号 } 
([tableval = «»; valtree = exptree] 
[replace Jname lexptree lexpvals Toutvals] C 如 果 不 存在 则 加 入 表 中 } 


| [otherwise outvals = expvals; valtree = tableval]) 


> <Plus leftval riteval> ; { 取代 子 表 达 式 树 3 


所 谓 “ 复 写 传 播 ” 是 指 这 样 的 一 种 优化 : 找 出 将 同一 个 值 赋值 给 几 个 变量 的 多 条 赋值 语句 ， 
并 消除 不 必要 的 寄存 器 装 入 运算 。 它 节省 的 代码 或 执行 时 间 非 常 少 ， 但 与 消除 公共 子 表达 式 一 
起 执行 时 ， 这 一 优化 实际 上 没有 什么 开销 。 
8.8.4 左 移动 提升 

所 谓 “提升 ”是 指 这 样 的 一 种 优化 : 寻找 一 个 分 又 (IF-THEN-ELSE 语句 ， 或 CASE 语句 
的 所 有 支 路 ) 的 所 有 支 路 中 的 相同 代码 ， 并 将 这 些 代码 移 至 分 叉 之 前 或 之 后 的 公共 代码 中 。 一 
个 分 又 的 每 一 支 路 开始 处 的 相同 代码 可 向 前 (向 左 ) 移 至 刚好 在 条 件 分 支 之 前 ; 每 一 支 路 结束 


= 
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处 的 相同 代码 可 向 后 (向 右 ， 移 至 支 路 的 汇合 点 。 一 般 来 说 ， 提 升 并 不 会 使 代码 运行 得 更 快 ， 
但 是 当空 间 非 常 珍贵 时 ， 它 可 节省 代码 的 空间 。 

左 移动 提升 的 分 析 过 程 与 消除 公共 子 表达 式 非常 类 似 。 在 程序 中 消除 公共 子 表 达 式 的 同 
时 ， 为 一 个 分 叉 的 THEN 部 分 保存 一 个 表达 式 表 ; 当 处 理 ELSE 部 分 时 ， 每 一 个 新 的 表达 式 都 
需要 查找 该 表 ( 但 即便 不 存在 也 不 会 将 表达 式 添加 到 表 中 )。 在 分 叉 的 另 一 支 路 的 表 中 找到 的 
所 有 表达 式 均 可 作为 候选 的 提升 代码 ， 应 从 每 一 支 路 中 剪除 这 些 代码 ， 并 嫁接 到 该 分 叉 的 判定 
代码 之 前 的 公共 代码 结束 处 。 

一 种 简单 但 速度 不 是 特别 快 的 左 提 升 技术 是 两 次 运行 消除 公共 子 表达 式 的 算法 ， 第 一 次 先 
将 被 提升 的 候选 代码 副本 嫁接 到 公共 代码 ， 第 二 遍 则 由 普通 的 消除 公共 子 表达 式 算 法 将 原 枝 前 
除 。 该 方法 无 法 正确 地 提升 对 一 个 带 副 作用 的 过 程 的 相同 调用 ; 但 除 此 之 外 ， 它 与 仅 用 一 次 遍 
历 的、 更 直接 的 前 枝 和 嫁接 方法 同样 高 效 。 由 于 这 一 技术 与 传统 的 消除 公共 子 表达 式 算 法 差别 
其 小 ， 其 实现 细节 留待 读者 完成 。 

8.85 右 移 动 提升 
在 中 间 代 码 的 树 表 示 中 ， 执 行 右 移动 提升 比 左 提升 稍 复杂 一 些 。 考 虑 以 下 程序 片段 


IF x THEN 

z :=a+b 
ELSE 

z := a *b 


END 


上 例 中 可 提升 的 公共 代码 是 对 变量 z 的 赋值 。 表 8-3 展示 了 Itty Bitty 栈 机 器 (参阅 附录 C 
了 解 如 何 转 换 为 零 地 址 ) 的 一 种 单 地 址 变形 的 代码 ， 其 中 提升 只 是 一 个 简单 的 变换 。 然 而 在 树 
表示 中 ， 树 的 变换 就 远 远 没有 那么 简单 了 ， 如 图 8-17 所 示 。 


表 8-3 机 器 代码 的 右 移动 提升 


未 优化 的 原 代码 右 提升 之 后 

LD x LD x 

BRF else BRF else 

LD a LD a 

ADD b ADD b 

ST z {被 移 走 } 

BR join BR join 
else LD a else LD a 

MPY b MPY b 

ST z { 被 移 走 } 
join eel join ST z {被 提升 的 代码 } 


这 一 问题 的 根源 在 于 程序 执行 时 是 自 底 向 上 遍历 一 棵 树 ， 因 而 左 提升 可 从 树 的 末梢 收集 叶 
结 点 和 小 分 枝 ， 在 这 些 地 方 容易 将 它们 剪 枝 ， 然 后 嫁接 到 其 他 子 树 的 末梢。 由 于 右 提 升 涉及 一 
棵 子 树 中 最 后 执行 的 操作 ， 提 升 的 候选 者 往往 是 内 部 结 点 ， 而 叶 结 点 和 小 分 枝 必 须 以 某 种 方式 
驻 留 原 处 ! 只 有 对 树 进 行 彻底 的 变换 ， 方 可 实现 这 种 形式 的 提升 ， 正 如 图 8-17 所 作 的 变换 : 有 
两 个 赋值 语句 子 树 的 条 件 语句 必须 变 成 单条 赋值 语句 ， 并 以 一 个 条 件 表达 式 作为 被 赋予 的 值 。 
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在 实际 应 用 中 ， 我 们 会 创建 新 的 临时 变量 以 保存 这 些 中 间 值 。 


o © 
Q Q sas: Q 


图 8-17 树 表 示 中 的 右 移动 提升 问题 


代码 清单 8.11 是 一 个 右 移动 提升 的 文法 片段 , 其 核心 算法 在 于 将 两 块 代 码 树 片段 沿 程序 树 
向 上 流动 ， 其 中 一 块 是 待 提升 的 代码 集 ， 另 一 块 是 驻 留 原 处 的 代码 集 。 这 两 块 代码 集中 ， 有 一 
块 将 作为 每 一 产生 式 中 变换 后 的 结 点 , 另 一 块 则 作为 综合 属性 向 上 传递 至 于 哪 一 块 作为 属性 ， 
哪 一 块 作为 变换 ， 取 决 于 当前 结 点 是 被 提升 还 是 驻 留 原 处 : 车 当前 结 点 拟 驻 留 原 处 ， 则 拟 驻 贸 
的 代码 块 将 继续 作为 当前 结 点 的 子 树 ; 车 拟 提升 当前 结 点 ， 则 拟 提升 的 代码 块 将 添加 到 当前 结 
点 作为 一 棵 子 树 ， 并 将 驻 留 原 处 的 代码 作为 属性 向 上 传递。 


代码 清单 8.11 右 移动 提升 的 文法 片段 


RHoist Jinvals:table linvref:set linvasn:set liastleg:bool lhoistme:bool 
lparentval:tree 
Toutvals:table Toutvref:set Toutvasn:set Tdetached: tree 


> myself:<IF expn then else> { 待 提升 的 树 的 根 结 点 } 
else:RHoist lempty lempty lempty lfalse lfalse J<> 
Telsvals Telsvret Telsvasn Telsdet { 令 集 合流 经 两 个 支 路 } 
then:RHoist Jelsvals lempty lempty ltrue ltrue J<> 
Tthnvals Tthnvref Tthnvasn Tthndet 
[union Jthnvref lelsvref Tmidvref] { 合并 表达 式 的 集合 } 
[union Jthnvasn Jelsvasn Tmidvasn] { 此 处 并 非 完全 递归 3 
expn:RHoist linvals lmidvref Jmidvasn Vlastleg Vfalse imyself 
Toutvals Toutvref Toutvasn Tdetached 
=> <Semi <IF expn thndet else> then> { 执行 树 的 变换 } 


一 «Semi left rite» 
rite:RHoist linvals linvref linvasn llastleg liastleg le 
Tmidvals Tmidvref Tmidvasn Tritedet { 令 集 合 从 右 到 左 流 动 } 
left:RHoist Jmidvals \midvref Jmidvasn liastleg liastieg le 
Toutvals Toutvref Toutvasn Tieftdet 
[detached = «Semi leftdet ritedet>] { 收集 剪 下 的 部 分 } 


一 myself:«Assign «ID»$name expn> 
([lastleg - false; valtree - myself; hoistself - false] ( 第 一 个 支 路 ...} 
| [inset name linvasn; midvals = invals] { 无 法 在 赋值 语句 上 提升 } 
| [inset Vname Vinvref; midvals = invals] { 无 法 在 变量 引用 上 提升 } 
| [otherwisey into lmyself linvals Tmidvals] { OK， 将 自身 放 入 表 中 } 


214 


PTangle 


B&F 


| [otherwise] { 第 二 个 支 路 ... } 
[compose J<Assign> l«rD»$name Tvalno] 
[lockup Jvalno Jinvals Ttableval; midvals = invals] ( 在 表 中 查找 自身 } 
([tableval = «»; valtree = myself; hoistself = false] 
| [inset iname linvasn; valtree - myself; hoistself - false] 
| [inset name linvref; valtree - myself; hoistself - false] 
| [otherwise; valtree = tableval; hoistself = true] 


{ 找到 ， 提 升 自 身 } 
tableval:Prune J0)) C 同时 剪除 另 一 支 路 } 
expn:RHoist dmidvals linvref Jinvasn llastieg ilhoistself lvaltree 

Toutvals Toutvref Tmidvasn Texpdet 
[addset name Jmidvasn Toutvasn] { 注意 该 赋值 语句 } 
([lastleg = hoistself; detached = expdet; xfrm = myself] 

{ 子 结 点 跟随 其 父 结 点 } 
| [otherwise; detached = myself; xfrm = expdet]) ( 父 、 子 结 点 分 道 扬 镰 } 
xfrm { 向 上 发 送 新 的 子 结 点 } 





exptree:«Plus left rite» 
([lastleg - false; valtree - exptree; hoistself - false] 

{ 第 一 个 支 路 ... } 
[into lexptree linvals Texpvals] { 将 自身 放 入 表 中 } 
[otherwise] { 第 二 个 支 路 ... } 
[compose l«Plus» lparentval Tvalno] 

[lookup lvaino linvais Ttableval; expvals - invals] 

{ 在 表 中 查找 自身 } 
([tableval = <>; valtree = exptree; hoistself = false] 
[hoistme - false; valtree - exptree; hoistself - false] 
[otherwise; valtree - tableval; hoistself - true] 

{ 找到 ， 提升 自 身 } 
tableval:Prune 40)) C 同时 剪除 另 一 支 路 } 
rite:RHoist lexpvals linvref linvasn liastleg lhoistself lvaltree 

Tmidvals Tmidvref Tmidvasn Tritedet 
left:RHoist lmidvals lmidvref Jmidvasn llastleg Jhoistself lvaltree 
Toutvals Toutvref Toutvasn Tleftdet { 令 集合 流 经 子 表达 式 ) 
exptree:PTangle lieftdet lritedet lhoistme lhoistself Jtableval Tdetached 





vartree:<ID>%name 


[inset lname linvasn; hoistme = true] { 无 法 在 赋值 语句 上 提升 } 
[tempvar Tvarno] { 创建 一 个 新 的 临时 变量 } 
[detached = <ID>%varno] 

«Assign <ID>%varno vartree> C 在 交 时 变量 保存 变量 值 } 


vartree:«ID»$name 
[otherwise; detached - «»] { 否则 就 跟 父 结 点 一 样 } 
[outvals = invals; outvref = invref; outvasn = invasn] ; 


lieftdet:tree lritedet:tree lhoistme:bool lhoistself:bool loldtree:tree 
Taetached:tree 


exptree:«Plus left rite» 


[hoistme = hoistself] { 子 结 点 跟随 其 父 结 点 } 
[detached = «Semi leftdet ritedet>] { 收集 剪 下 的 部 分 } 
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一 exptree:«Plus left rite» 


[otherwise; tempvar Tvarno] (S. CTEESADEISSE } 

[detached = «Semi «Assign <ID>%varno exptree» «Semi leftdet ritedet>>] 

oldtree:Prune lvarno { 另 一 支 路 中 的 同一 变量 } 
=> «ID»$varno ; { 临时 变量 携带 该 值 } 


Prune lvarno:int 


一 «Plus left rite» | «Assign left rite» 

[varno - 0] { 没有 值 要 保存 到 变量 中 ) 
> <Semi left rite> 
一 exptree:«Plus left rite» 

[varno » 0] { 将 部 分 值 保 存 到 变量 中 } 
之 «Assign «ID»$varno «Plus left rite>> 


对 于 每 一 结 点 ， 对 它 进 行 提升 亦 或 令 其 驻 留 原 地 的 决策 仅 取决 于 其 自身 的 结构 以 及 继承 得 
到 的 信息 。 其 中 ， 继 承 信息 是 一 个 布尔 值 ， 表 明 其 父 结 点 是 否 将 被 提升 。 基 于 这 一 知识 ， 一 个 
结 点 可 确定 如 何 定 位 向 上 传递 给 父 结 点 的 两 块 子 树 。 一 共有 四 种 可 能 的 情况 ， 其 中 的 两 种 是 一 
个 结 点 及 其 父 结 点 一 起 提升 或 驻 留 原 处 ， 另 外 两 种 是 它们 的 处 理 分 道 扬 镶 。 由 于 是 否 提 升 的 决 
策 取 决 于 父 结 点 是 否 也 被 提升 , 上述 情况 中 有 一 种 是 不 存在 的 。 然 而 , 一 个 父 结 点 可 以 被 提升 ， 
而 令 其 子 结 点 驻 留 原 处 而 不 提升 ， 在 这 种 情况 下 ， 两 块 子 树 在 搬运 过 程 中 被 交换 ， 从 而 应 放 在 
一 起 的 代码 最 终 会 放 在 一 起 。 图 8-18 以 图 形 方式 展示 了 这 一 决策 过 程 , 注意 如 果 将 一 个 子 树 结 
点 提升 到 右边 ， 而 令 一 个 依赖 于 该 子 树 的 值 的 父 结 点 驻 留 原 处 ， 这 会 破坏 程序 原 有 的 语义 。 





a) b) 

图 8-18 ”提升 过 程 中 父 结 点 与 子 结 点 的 交互 。 在 图 a 中 ， 父 结 点 与 子 结 点 均 不 提升 ， 被 提升 的 结 
点 〈 如 果 有 的 话 ) 治 右边 向 上 传递 ; 在 图 b 中 ， 父 结 点 与 子 结 点 同时 提升 ， 不 提升 的 结 
点 向 上 传递 ， 在 图 c 中 ， 父 结 点 被 提升 而 子 结 点 不 提升 ， 它 们 被 分 离 ， 并 与 相同 处 置 方 
式 的 其 他 结 点 一 起 向 上 传递 。 不 可 能 将 一 个 子 结 点 从 其 父 结 点 之 下 提升 上 来 (参阅 正文 ) 


在 消除 公共 子 表达 式 和 左 移动 提升 中 ， 对 一 个 作为 组 成 部 分 的 变量 的 赋值 将 注销 符号 表 中 
对 应 的 入 口 。 在 右 提升 中 ， 还 须 考 虑 对 变量 的 引用 : 如 果 一 个 变量 的 赋值 语句 未 被 提升 ， 则 该 
变量 的 引用 不 可 提升 至 该 赋值 语句 之 上 ;， 一 个 变量 的 赋值 语句 不 可 提升 到 该 变量 的 引用 之 .上 ， 
也 不 可 提升 到 该 变量 的 其 他 赋值 语句 之 上 。 这 一 约束 的 实现 利用 了 两 个 从 左 到 右 流动 的 集合 : 
一 个 集合 包含 了 仍 有 未 提升 引用 的 变量 ， 另 一 集合 包含 了 仍 有 未 提升 赋值 语句 的 变量 。 仅 当 被 
赋值 的 变量 同时 不 属于 这 两 个 集合 时 ， 该 赋值 语句 才 可 提升 ， 如果 一 个 变量 不 属于 仍 有 未 提升 
赋值 语句 的 变量 集合 ， 则 该 变量 的 引用 可 被 提升 。 
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8.8.6 ”无 用 代码 以 及 其 他 从 右 到 左 的 数据 流 分 析 

右 移 动 提升 本 质 上 是 模拟 执行 的 从 右 到 左 镜像 。 消 除 无 用 代码 也 要 求 从 右 到 左 的 分 析 以 找 
出 活跃 变量 。 对 死 变量 的 赋值 是 无 用 的 ， 因 而 可 将 其 删除 。 本 章 之 前 已 介绍 了 活跃 变量 分 析 。 

有 一 种 寄存 器 分 配 策略 与 活跃 变量 分 析 相 关 : 首先 寻找 并 确定 一 个 值 应 存放 在 哪 一 个 寄存 
器 中 ， 然 后 向 后 处 理 ， 将 寄存 器 指派 给 子 表 达 式 ， 使 得 该 值 最 终 存 放 在 该 寄存 器 中 。 第 9 Bit 
论 寄存 器 分 配 的 常见 课题 时 ， 将 会 更 深入 地 探讨 这 一 问题 。 高 性 能 计算 机 中 的 资源 调度 也 有 类 
似 的 需求 。 
8.8.7 ”数学 等 式 与 代码 选择 

在 大 多 数 计算 机 中 ， 不 同 指令 的 执行 时 间 存 在 较 大 的 差异 ， 一 个 典型 例子 是 乘法 比 加 法 或 
移 位 更 慢 。 一 个 聪明 的 编译 程序 可 利用 诸如 n+ n = 2n 这 类 数学 等 式 ， 用 乘 数 自身 的 累加 取代 
它 与 常量 2 的 乘法 , 或 令 其 向 左 移 1 位 。 与 2 的 任何 常量 窜 的 乘法 均 可 转换 为 适当 位 数 的 移 位 。 
这 类 优化 称 为 强度 削弱 ， 因 为 实现 某 一 计算 的 代码 的 强度 时间、 空间 〉 被 前 弱 。 

代码 清单 8.12 中 的 代码 生成 文法 片段 展示 了 两 种 可 应 用 到 Itty Bitty 栈 机 器 的 不 同 强度 削 
弱 方 法 ， 这 些 方法 将 与 常量 2 相 乘 的 乘法 转换 为 加 法 〈 假 设 加 法 比 乘法 在 性 能 上 更 有 优势 )。 
第 一 条 规则 将 一 个 乘法 结 点 变换 为 一 个 加 法 结 点 ， 方 法 是 制作 其 子 树 的 一 个 副本 ， 这 里 假设 接 
下 来 应 用 的 消除 公共 子 表达 式 优化 将 消除 这 一 副本 〈 并 且 在 该 子 表达 式 中 没有 副作用 )。 另 一 
条 规则 是 代码 生成 〈 树 平展 ) 文法 的 一 个 片段 ， 它 基于 不 同 的 树 形态 生成 不 同 的 代码 。 当 然 ， 
一 个 编译 程序 只 会 选用 其 中 的 一 种 方法 。 注 意 第 一 条 规则 在 形式 上 是 语义 驱动 的 ， 而 第 二 条 规 
则 是 语法 驱动 的 。 利 用 条 件 属性 断言 和 “最 大 咀嚼 ” 树 分 析 ， 在 这 两 种 情况 下 上 述 两 种 分 析 方 
法 均 可 使 用 。 


代码 清单 8.12 ”强度 削弱 的 两 个 文法 片段 


StrenRed { 在 消除 公共 子 表达 式 前 执行 } 
— myself:«Star left rite» 
left:StrenRed BETA...) 
rite:StrenRed . .是 否 符合 强度 前 弱 条 件 ) 
([rite:«CON»$2; xform = «Plus left left>] 右 子 树 是 常量 2 } 


左 子 树 是 常量 2 } 
两 棵 子 树 均 不 符合 条 件 } 
执行 树 的 变换 ] 


| [left:<CON>%2; xform = «Plus rite rite»] 
| [otherwise; xform = myself]) 
=> xform 


一 一 一 一 一 一 


在 最 后 的 代码 生成 时 执行 } 


-人 


CodeGen linlocn:int Toutlocn:int 


> <Star left <CON>%2> 
left:CodeGen liniocn Tmidlocn { 处 理 左 子 树 } 
Emit 48 Jmidiocn Tnxtlocn ( 输出 DUPE 操作 码 ) 
Emit 112 Jnxtlocn Toutlocn C 输出 ADD 操作 码 } 
一 «Star <CON>%2 rite» 
rite:CodeGen liniocn Tmidlocn { 处 理 右 子 树 } 


Emit 48 Jmidlocn Tnxtlocn 输出 DUPE 操作 码 } 
Emit 412 lnxtloen Toutloen { 输出 ADD 操作 码 ) 


m 
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一 «Star left rite» 
[otherwise] { 上 述 两 种 情况 之 外 的 情况 } 
left:CodeGen linlocn Tmidlocn { 处 理 左 子 树 } 
rite:CodeGen lmidlocn Tnxtlocn { 处 理 右 子 树 ) 
Emit 411 Jnxtlocn Toutlocn { 输出 MPY 操作 码 } 


常量 折 敬 时 还 可 挖掘 另 一 些 数 学 等 式 的 巧妙 用 法 。 根 据 加 法 与 乘法 的 分 配 律 ， 涉 及 同一 常 
量 因 子 的 两 个 乘积 之 和 ， 可 变换 为 一 个 和 的 乘积 ， 而 交换 律 和 结合 律 在 很 多 时 候 可 用 于 收集 常 
量 项 以 实现 部 分 求 值 ， 尽 管 这 两 个 代数 性 质 在 计算 机 的 算术 运算 中 并 非 总 是 成 立 。Itty Bitty 栈 
机 器 中 早已 使 用 了 关于 负数 的 公理 以 执行 减法 ; 在 寄存 器 机 器 上 将 负 号 分 配 到 表达 式 中 有 时 可 
节省 一 条 中 间 的 存储 或 装 入 指令 。 

强度 削弱 优化 是 更 通用 的 一 类 优化 技术 “代码 选择 ”的 一 部 分 。 这 类 优化 方法 将 分 析 目 
标 硬 件 机 器 的 不 同 操作 码 , 为 中 间 语 言 的 每 一 结构 在 若干 可 能 的 选项 中 挑选 最 佳 的 指令 序列 。 
例如 ， 在 Itty Bitty RAL, BRASH Nom 将 其 操作 数 的 所 有 位 求 反 ， 而 Modula-2 语言 
的 运算 符 NOT 仅 求 反 单个 位 以 区 别 FALSE (以 0 表示) Al TRUE (以 1 表示 )。 将 FALSE 的 
所 有 位 求 反 结果 为 -1, 这 与 TRUE 不 同 。 有 多 种 IBSM 指令 序列 的 选择 可 实现 一 个 正确 的 NoT 
运算 ， 如 表 8-4 所 示 ; 编译 程序 设计 人 员 须 根据 每 一 指令 序列 的 硬件 执行 时 间 和 代码 空间 从 
中 选择 一 项 。 


表 8-4 实现 布尔 运算 符 woT 的 四 种 IBSM 代码 序列 


NOT ZERO NEG ONE 
ONE EQUAL ONE XOR 
AND ADD 


不 同 于 Itty Bitty 栈 机 器 ,许多 计算 机 并 没有 特定 的 硬件 将 比较 结果 转换 为 单个 位 ,使 得 这 
个 位 可 存储 到 一 个 变量 中 ， 或 用 作 布 尔 运 算 AND 和 oR 的 一 个 操作 数 。 如 果 需 要 这 一 种 转换 ， 
勤奋 的 编译 程序 设计 人 员 将 分 析 多 种 不 同 的 指令 序列 ， 然 后 寻找 一 种 高 效 的 算法 ， 正 如 之 前 我 
们 对 .IBSM 中 布尔 运算 符 NOT 的 处 理 。 

8.8.8 循环 结构 分 析 

循环 结构 分 析 的 大 多 数 研究 文献 是 关于 如 何 从 中 间 代 码 的 一 种 线性 表示 (基本 块 或 四 元 
式 ) 重 构 程序 的 结构 图 ， 对 于 FORTRAN 这 类 非 结构 化 语言 则 是 别 无 选择 。 鉴 于 Modula-2 (以 
及 在 某 种 程度 上 Pascal 和 C 语言 , 其 中 非 结 梅 化 的 语言 特征 要 么 被 限制 , 要 么 往往 被 反对 使 用 ) 
这 类 结构 化 程序 设计 语言 的 广泛 使 用 ， 我 们 更 床 意 在 中 间 代 码 保留 尽 可 能 多 的 源 语言 结构 ， 以 
便于 循环 分 析 。 

在 大 多 数 现代 语言 中 , 任意 循环 的 抽象 树 表示 要 求 有 两 个 不 同 的 结 点 类 型 , 如 图 8-19 所 示 。 
整个 循环 由 一 个 Loop 结 点 及 其 下 的 循环 体 表示 ，LOOP 结 点 下 的 所 有 东西 均 可 能 和 迭代， 连续 
执行 直至 到 达 由 一 个 EXIT 结 点 表示 的 代码 。 如 果 由 循环 体 子 树 表 示 的 代码 未 遇 到 一 个 EXIT 
即 结束 执行 ， 则 循环 从 头 开始 重 复 执行 。 一 些 语言 也 可 能 在 合适 的 地 方 显 式 地 表示 一 个 CYCLE 
结 点 ， 由 于 这 不 会 另外 带 来 新 的 困难 或 理解 问题 ， 我 们 将 其 细节 留待 读者 练习 。 
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循环 分 析 的 最 重要 结果 是 找 出 所 谓 的 持久 循环 变量 ， 即 PLV。 持 久 循 环 变量 是 一 个 在 循环 

体 入 口 处 活跃 的 变量 ， 并 且 在 循环 体 中 被 赋值 。 换 而 音 之 ， 

该 变量 先 被 引用 ， 然 后 被 修改 。 许 多 文献 更 关注 归纳 变量 ，。 roo c» 

ERE TEE UREN E DUO RE QU RCRUM. (或 递减 )。 归 oum 

纳 变量 通常 可 从 一 条 FOR 循环 语句 的 控制 变量 导出 ,但 也 可 var (i 

在 其 他 源 代码 的 形式 中 显 式 地 编码 表示 这 些 变量 。 控 制 变量 O / Y 

本 身 也 是 一 个 持久 循环 变量 ， 一 些 归纳 变量 优化 方法 将 派生 0 

的 归纳 变量 转换 为 独立 的 持久 循环 变量 。 G$ y 
利用 一 次 遍历 循环 体 的 数据 流 分 析 很 容易 找 出 持久 循环 

变量 ， 既 可 以 从 左 到 右 ， 也 可 以 从 右 到 左 。 在 数据 流 分 析 过 EM © 

程 中 必须 传 所 两 个 集合 ， 以 正确 地 找 出 持久 循环 变量 。 其 中 B19 BERRA WR 

一 个 是 被 赋值 的 变量 的 集合 ， 另 一 是 活跃 的 变量 引用 〈 从 循 RENEE 

环 的 开头 看 ) 的 集合 。 在 从 左 到 右 的 数据 流 分 析 中 ， 如 果 一 个 变量 不 在 被 赋值 的 变量 集中 ， 则 

将 该 变量 添加 到 正在 使 用 的 活跃 引用 集中 ， 在 遇 到 一 个 变量 的 赋值 语 名 时， 该 变量 将 无 条 件 地 

添加 到 被 研 值 的 变量 集中 。 在 从 右 到 左 的 数据 流 分 析 方向 中 ， 仅 当 一 个 变量 已 在 被 赋值 的 变量 

集中 ， 才 将 该 变量 添加 到 活跃 引用 集中 ;赋值 语 句 则 从 活跃 引用 集中 删除 变量 ， 同 时 更 新 被 

值 的 变量 集 。 当 数据 流 分 析 过 程 结束 时 ， 活 跃 变量 集 是 循环 体 传播 出 来 的 两 个 正 处 理 集合 的 交 

集 。 由 于 之 前 已 深入 讨论 了 数据 流 分 析 技 术 ， 我 们 将 特定 的 文法 细节 留 作 练习 。 

在 一 次 遍历 循环 体 的 (后续 ) 模拟 执行 分 析 中 ， 持 久 循环 变量 可 用 于 找 出 循环 不 变量 以 实 
现代 码 移动 。 该 功能 有 些 类 似 常量 折 世 与 代码 提升 的 交叉 ， 有 时 实际 上 又 称 为 代码 提升 。 如 果 
一 个 变量 既 不 是 循环 不 变量 也 不 是 持久 循环 变量 ， 则 必须 在 循环 体 中 使 用 它 之 前 对 它 进 行 赋 
值 。 因 而 ， 可 在 模拟 执行 过 程 中 向 前 传播 一 个 集合 ， 该 集合 包含 了 所 有 已 知 不 是 循环 不 变 的 变 
量 ， 在 循环 体 的 开头 ， 该 集合 初始 化 为 持久 循环 变量 集 ， 并 包含 沿途 被 赋值 的 所 有 变量 。 如 果 
一 个 表达 式 仅 含 常量 和 不 属于 该 集合 的 变量 引用 ， 则 可 推断 该 才 达 式 为 循环 不 变 的 ， 并 向 前 移 
出 循环 ， 如 果 所 有 实 参 均 为 循环 不 变 的 ， 则 一 个 无 副作用 的 函数 也 可 看 作 是 循环 不 变 的 。 

代码 清单 8.13 展示 了 一 个 循环 不 变 代码 移动 的 文法 片段 , 该 文法 采用 了 图 8-8 所 示 的 合成 
方法 。 这 种 方法 并 不 是 从 说 套 循环 向 外 沿途 传播 循环 不 变 代码 ， 尽 管 我 们 稍 作 修改 即 可 如 此 ，。 
该 文法 中 特别 值得 注意 的 是 IF 结 点 的 控制 表达 式 碰巧 是 循环 不 变 的 情况 。 该 文法 展示 了 该 表 
达 式 将 被 移出 循环 ， 并 赋值 给 一 个 新 的 临时 变量 ;该 变量 在 循环 中 被 测试 ， 以 决定 选择 哪 一 个 
分 支 。 


代码 清单 8.13 ”循环 不 变 代 码 移动 的 文法 片段 


LoopCon inotcon:set Toutnot:set Tconcode:tree 


一 «Loop body>%plv 


body:LoopCon Jplv Tnewnot Tmoved { 处 理 循环 体 } 
[concode = <>] { 不 对 外 传播 任何 东西 ， } 
[union Jnotcon Jnewnot Toutnot] { 除了 被 修改 的 变量 集 } 

=> <Semi moved <Loop body>%plv> { 将 被 移动 代码 加 到 循环 前 头 ) 


一 > «Exit» 
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结果 根本 没有 任何 东西 } 


m~ 


[outnot = notcon; concode = <>] 


> myself:«If expn then else» 
expn:ExpnCon Jnotcon Tiscon Tmoved { 处 理 表达 式 } 
then:LoopCon Jnotcon Tnotl Tmovet { 处 理 左 子 树 } 
else:LoopCon Jnotcon Tnotr Tmovee { 处 理 右 子 树 } 
[union Vnotl Jnotr Toutnot] { 合并 被 修改 的 变量 集 ) 
([iscon = false; xform = myself] ( SRI, S3tPrE HERI RS ) 
[concode - «Semi moved «Semi movet movee»»] 
| (otherwise; newvar Tvarno] C 否则 创建 一 个 临时 变量 ， } 
[xform = «If <VAR>%varno then else>] { 以 保存 循环 不 变 的 表达 式 } 
[concode = «Semi «Assn <VAR>%varno expn» «Semi movet movee»»]) 


之 xform { 车 有 需要 则 替换 结 点 } 


一 «Semi left rite» 
left:LoopCon Jnotcon Tmidnot Tmovel { 处 理 左 子 树 } 
rite:LoopCon Jmidcon Toutnot Tmover { 处 理 右 子 树 } 


[concode = «Semi movel mover>] 合并 待 移 动 的 代码 } 
-> myself:<Assn <VAR>%varno expn> 
expn:ExpnCon Jnotcon Tiscon Tmoved { 处 理 表 达 式 } 


(Inotinset lvarno Jnotcon; iscon = true] ( 表达 式 和 变量 为 循环 不 变 ， } 
[concode = myself; outnot = notcon; xform = <>] ( 故 移动 整 条 赋值 语句 } 
| [otherwise; addset Jvarno Jnotcon Toutnot) ( 否则 将 变量 添加 到 集合 中 3 
[concode = moved; xform = myself]) { 并 传递 待 移动 的 代码 } 

> xform 若 有 需要 则 蔡 换 结 点 } 


A 


ExpnCon inotcon:set Tiscon:bool Tconcode:tree 


一 «CON»$val 
[concode - «»; iscon - true] 


是 的 ， 它 是 循环 不 变 的 } 


一 


3 «VAR»$varno 
([notinset lvarno Jnotcon] 
[concode = <>; iscon = true] 
| [otherwise concode = <>; iscon = false]) 


该 变量 是 循环 不 变 的 } 


~ 


不 是 循环 不 变 的 } 


m~ 


> myself:<Plus left rite> { 对 任意 运算 符 结 点 ， 3} 
[otherwise] { 上 述 情况 之 外 } 
left:ExpnCon Jnotcon Tisconl Tmovel { 处 理 左 子 树 } 
rite:ExpnCon Jnotcon Tisconr Tmover C 处 理 右 子 树 } 


([isconl = isconr; xform = myself; iscon = isconl] ( 两 个 子 表 达 式 相同 ， 3} 


[concode = «Semi movel mover»] { 故 将 结 点 放 在 一 起 } 
|[isconl = true; iscon = false; newvar Tvarno] ( (BOS: 创建 临时 变量 ，} 
[xform = «Plus «VAR»$varno rite>] { 以 保存 不 变 式 的 值 } 


[concode = «Semi «Assn <VAR>%varno left» mover>] 

| [isconr = true; iscon = false; newvar Tvarno] { 右边 为 循环 不 变 而 左边 不 是 } 
[xform = «Plus «VAR»$varno rite>] { 处 理 方 法 相同 ) 
[concode = «Semi «Assn <VAR>%varno left» mover>]) 





=> xform { 若 有 需要 则 替换 结 点 } 
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“循环 开关 外 提 ” 是 一 种 优化 技术 ， 在 上 述 情 况 下 执行 更 为 关键 的 处 理 ， 将 一 个 循环 变 成 
两 个 循环 ， 如 图 8-20 所 示 。 除 分 叉 结 点 外 ， 循 环 中 的 所 有 结 点 被 复制 。 条 件 测 试 被 移 至 循环 之 
外 ,并 据 此 选择 两 个 副本 中 的 其 中 一 个 ， THEN 部 分 保留 在 循环 的 一 个 副本 中 ，BLSE 部 分 则 保 
留 在 男 一 副本 中 。 因 而 ， 尽 管 代码 的 大 小 显然 增 大 了 ， 但 所 有 的 测试 与 分 支 逻 辑 均 已 从 循环 中 
删除 ， 从 而 改进 了 执行 时 间 ， 并 有 可 能 产生 更 多 的 循环 不 变 优化 和 消除 公共 子 表达 式 优化 ， 而 
这 些 优化 原本 可 能 由 于 THEN 与 ELSE 部 分 的 冲突 而 无 法 实现 。 






循环 不 变 
表达 式 








AUTT 
其 他 循 
环 代码 
T 
















Dn 
其 他 循 
环 代码 
OD 

















图 8-20 ”循环 开关 外 提 
8.9 实现 抽象 语法 树 


在 已 发 表 的 研究 文献 中 ， 很 少 涉及 树 变换 程序 的 实现 。 本 章 余下 内 容 的 大 多 数 材 料 描述 了 
原创 的 工作 ， 它 们 仍 有 很 大 的 改进 空间 ， 此 处 的 介绍 主要 是 为 了 展示 一 种 可 能 的 实现 方式 ， 我 
们 鼓励 读者 为 自己 的 编译 程序 开发 更 高 效 的 算法 。 

在 内 存 中 实现 一 个 真正 的 抽象 语法 树 ， 需 使 用 指针 和 记录 数据 类 型 以 实现 类 属 的 树 结 点 。 
在 一 个 手工 编写 的 编译 程序 中 ， 可 有 效 地 利用 记录 变 体 定义 不 同 的 结 点 结构 ， 但 通常 更 简单 的 
方法 是 定义 单个 足够 通用 的 结 点 记录 类 型 ， 使 得 它 可 以 处 理 编译 程序 中 用 到 的 所 有 不 同 的 结 点 
类 型 。 例 如 ， 如 果树 结 点 最 多 有 三 棵 子 树 ， 则 结 点 记录 应 有 三 个 字段 存放 子 树 的 指针 。 使 用 统 
一 的 结 点 结构 的 另 一 好 处 是 在 变换 过 程 中 丢弃 树 的 片段 时 ， 易 于 回收 动态 存储 空间 。 与 维护 一 
个 已 分 配 的 空 结 点 列表 的 解决 方案 相 比 ， 由 操作 系统 的 DISPOSE 过 程 完成 这 一 功能 显得 有 些 
低 效 。 类 似 地 ， 当 内 存 的 约束 强制 规定 使 用 虚拟 内 存 实现 技术 时 ， 统 一 结 点 的 大 小 将 简化 这 一 
任务 。 

类 属 结 点 记录 结构 的 最 小 需求 是 ， 有 一 个 结 点 名 定义 了 该 结 点 的 类 别 是 什么 ， 每 一 可 能 的 
子 树 有 一 个 指针 ， 以 及 某 种 类 型 的 一 个 指针 以 容纳 一 个 装饰 。 在 装饰 字段 中 或 整个 结 点 记录 中 
的 变 体 记录 支持 多 态 的 装饰 : 通常 一 棵 抽象 语法 树 的 不 同 部 分 〈 即 不 同类 别 的 结 点 ) 会 规定 有 
不 同类 型 的 装饰 。 

代码 清单 8.14 展示 了 一 类 结 点 〈WHIDLB) 以 集合 为 装饰 ， 而 另 一 类 结 点 (Agsign、ID 和 
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NUM) 以 整数 为 装饰 。 一 种 实现 方式 还 可 能 在 这 些 记 录 变 体 中 包含 标签 字段 ， 并 且 在 没有 强 类 
型 的 编译 程序 构造 工具 可 用 时 ， 还 可 包含 一 些 代码 检查 其 用 法 的 一 致 性 ， 在 编译 程序 通过 彻底 
的 测试 后 ， 投 入 生产 用 的 编译 程序 车 有 需要 改进 编译 的 时 间 效 率 ， 可 删除 这 些 一 致 性 检查 代码 
和 标签 字段 。 


代码 清单 8.14 ”一 个 树 结 点 的 实现 模块 





MODULE Trees; 


EXPORT 

Tree, Sett, NodeKind, Nill, (* 基本 类 型 *) 

BuildTree, ParseTree, DisposeTree, TransformTree, (* 过 程 *) 

IntTree, TreeInt, IntSett, (* 整数 的 强制 类 型 转换 *) 

Union, Intersect, SubSett, InSett; (* 集合 运算 过 程 *) 
CONST 

Nill = NIL; 

SegSize - 64; (* 集合 段 的 大 小 ， 根 据 硬 件 选 择 *) 
TYPE 


Tree = POINTER TO Node; 
Sett - Tree; 
NodeKind = (None, Int, Setn, IDn, NUMn, Assign, Readn, Writen, IFn, WHILEn, Semi); 
(* 有 需要 还 可 添加 其 他 结 点 类 型 * ) 
BitVector = SET OF [0 .. SegSize - 1]; 
Node - RECORD 
CASE NodeName: NodeKind OF 


Int: 
IntValue: INTEGER; 

Setn: 
BaseValue: INTEGER; 
Link: Sett; 
Segment: BitVector; 

ELSE 
Left, Middle, Right, Decor: Tree; 

END 
END; 


PROCEDURE Union(a, b: Sett): Sett; 


VAR 
theTree, theRest: Sett; 
BEGIN 
IF (a = b) OR (b = NIL) THEN 
RETURN a 
ELSIF a = NIL THEN 
RETURN b 
ELSE 
theRest := Union(a^.Link, b^.Link); 
IF (theRest - a^.Link) AND (b^.Segment «- a^.Segment) THEN 
RETURN a 
ELSIF (theRest - b^.Link) AND (a^.Segment «- b^.Segment) THEN 
RETURN b 


ELSE 
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NEW(theTree); 
WITH theTree^ DO 


NodeName :- Setn; 
BaseValue :- a^.BaseValue; 
Segment := a^.Segment + b*.Segment; 
Link :- theRest 

END; 

RETURN theTree 

END 
END 
END Union; 


PROCEDURE Intersect(a, b: Sett): Sett; 
VAR 
theTree, theRest: Sett; 
BEGIN 
IF a = b THEN 
RETURN a 
ELSIF (à = NIL) OR (b = NIL) THEN 
RETURN NIL 
ELSIF a^.BaseValue > b^.BaseValue THEN 
RETURN Intersect(a, b*.Link) 
ELSIF a^.BaseValue < b^.BaseValue THEN 
RETURN Intersect (a*.Link, b) 
ELSIF a^.Segment * b*.Segment = BitVector{} THEN 
RETURN Intersect (a*.Link, b^.Link) 
ELSE 
theRest := Intersect (a*.Link, b^.Link); 
IF (theRest = a^.Link) AND (a^.Segment <= b^.Segment) THEN 
RETURN a 
ELSIF (theRest - b^.Link) AND (b^.Segment «- a^.Segment) THEN 
RETURN b 
ELSE 
NEW(theTree); 
WITH theTree^ DO 


NodeName :- Setn; 
BaseValue :- a^.BaseValue; 
Segment :- a^.Segment * b^.Segment; 
Link :- theRest 
END; 
RETURN theTree 
END 


END 
END Intersect; 


PROCEDURE InSett(theTree: Sett; Value: INTEGER): BOOLEAN; 
BEGIN 
IF theTree - NIL THEN 
RETURN FALSE 
ELSE 
WITH theTree^ DO 
IF BaseValue » Value THEN 
RETURN FALSE 
ELSIF BaseValue + SegSize «- Value THEN 
RETURN InSett(Link, Value) 
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ELSE 
RETURN (Value MOD SegSize) IN Segment 
END 
END 
END 
END InSett; 


PROCEDURE DisposeTree(theTree: Tree); 
BEGIN (* 应 递归 地 处 置 cheTree RE MAL M *) 


END DisposeTree; 


PROCEDURE SubSett(a, b: Sett): BOOLEAN; (* 当 且 仅 当 a <= b 时 返回 真 *) 
BEGIN 
IF a = NIL THEN 
RETURN TRUE 
ELSIF b = NIL THEN 
RETURN FALSE 
ELSIF a^.BaseValue > b^.BaseValue THEN 
RETURN SubSett(a, b*.Link) ， 
ELSIF a^.BaseValue « b^.BaseValue THEN 
RETURN (a*.Segment = BitVector{}) AND SubSett(a^.Link, b) 
ELSE 
RETURN (a^.Segment «- b^.Segment) AND SubSett(a^.Link, b^.Link) 
END 
END SubSett; 


PROCEDURE BuildTree (name: NodeKind; first, second, third, decn: Tree): Tree; 
VAR 

theTree: Tree; 
BEGIN 

NEW (theTree) ; 

WITH theTree^ DO 


NodeName :- name; 

Left :- first; 

Middle :- second; 

Right :- third; 

Decor :- decn 
END; 


RETURN theTree 
END BuildTree; 


PROCEDURE ParseTree(theTree: Tree; name: NodeKind 
; VAR first, second, third, decn: Tree): BOOLEAN; 
BEGIN 
IF theTree - NIL THEN 
RETURN name - None 
ELSE 
WITH theTree^ DO 
IF NodeName <> name THEN 
RETURN FALSE 


ELSE 
first := Left; 
second := Middle; 


third := Right; 
decn := Decor; 


224 HSE 


RETURN TRUE 
END 
END 
END 
END ParseTree; 





PROCEDURE TransformTree(theTree, newTree: Tree); 
BEGIN 
IF theTree <> NIL THEN 
IF newTree = NIL THEN 
WITH theTree* DO 
NodeName := None; 
Left := NIL; 
Middle := NIL; 
Right := NIL; 


END 
ELSE 

theTree^ := newTree^ 
END 


END 
END TransformTree; 


PROCEDURE TreeInt(theTree: Tree): INTEGER; 
BEGIN 
IF theTree - NIL THEN 
RETURN 0 
ELSE 
RETURN theTree^.IntValue 
END 
END TreeInt: 


PROCEDURE IntTree(Value: INTEGER): Tree; 
VAR 
theTree: Tree; 
BEGIN 
NEW (theTree); 
theTree^.NodeName :- Int; 
theTree^.IntValue :- Value; 
RETURN theTree 
END IntTree; 


PROCEDURE IntSett(Value: INTEGER): Sett; 
VAR 
theTree: Sett; 
BEGIN 
NEW (theTree); 
theTree^.NodeName :z Setn; 
theTree^.BaseValue :- Value - Value MOD SegSize; 
theTree^.Segment := BitVector{Value MOD SegSize); 
theTree^.Link :- NIL; 
RETURN theTree 
END IntSett; 


END Trees; 
一 -一 一- m LL. 
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当 一 个 模块 导出 树 结 点 的 构建 和 分 析 过 程 时 ， 还 应 同时 导出 树 结 点 的 类 型 。 如 果 将 一 个 
集合 ( 即 集合 的 位 向 量 表示 ) 实现 为 树 结 点 类 型 的 变 体 ， 该 模块 还 须 导 出 操纵 这 些 集合 的 过 
程 。 代 码 清单 8.14 展示 了 这 一 模块 的 一 种 简单 实现 ， 但 其 中 未 提供 存储 空间 的 恢复 功能 。 尽 
管 这 里 展示 的 是 一 个 内 部 模块 ， 但 在 实际 应 用 中 它 显然 可 划分 为 两 个 分 别 编译 的 定义 模块 和 
实现 模块 。 

树 结 点 的 构造 过 程 BuilaTree 相当 简单 ， 它 返回 一 个 指向 树 的 指针 ， 可 直接 用 作 另 一 次 
BuildTree 调用 的 参数 ， 从 而 支持 将 复杂 的 树 模板 直接 翻译 为 可 执行 的 代码 。 对 树 结 点 的 分 
析 稍 复杂 一 些 。 每 一 个 单独 的 ParseTree 函数 调用 识别 一 个 结 点 ， 并 以 变 参 形式 返回 一 棵 子 
pt. RFR IF 结构 可 分 析 复 杂 的 模板 。 代 码 清单 8.16 中 的 样板 变换 程序 演示 了 这 两 个 
过 程 。 过 程 TrransformTree 用 于 以 某 一 其 他 结构 取代 一 个 结 点 结构 ， 它 无 法 将 一 棵 空 树 变换 
为 一 个 非 空 的 树 结 点 ， 反 之 亦 然 ， 但 这 些 限制 可 以 机 械 地 强制 执行 。 

不 同 于 Modula-2 和 Pascal 等 语言 中 的 大 多 数 集合 类 型 ， 用 于 数据 流 分 析 的 位 向 量 本 质 上 
具有 无 限 数目 的 元 素 。 编译 一 个 带 有 大 量变 量 声明 的 程序 时 , 分 析 过 程 需要 相应 的 大 型 位 向 量 。 
而 同一 个 编译 程序 运行 在 一 个 较 小 内 存 分 区 中 编译 小 型 程序 时 ， 不 应 承担 因 大 型 程序 对 大 型 集 
合 的 需求 而 带 来 的 〈 时 间或 空间 ) 开销 。 因 而 ， 这 类 位 向 量 的 最 实用 实现 方案 是 一 个 动态 链接 
的 集合 段 链表 。 代 码 清单 8.14 中 的 实现 演示 了 如 何 完成 这 一 方案 。 尽管 其 中 的 集合 操纵 过 程 表 
示 为 递归 形式 ， 但 由 于 许多 硬件 和 软件 环境 限制 带 来 的 过 程 调用 开销 ， 采 用 和 迭代 的 实现 方式 可 
能 会 更 加 高 效 。 某 些 编译 程序 假设 一 个 合理 的 过 程 中 变量 数目 不 会 超过 某 一 上 限 ， 简 单 地 给 变 
量 数目 设置 一 个 武断 的 上 限 ( 辟 如 256 个 )， 这 要 求 局 部 变量 总 是 从 0 开始 编号 ， 非 局 部 变量 
(如 果 数 据 流 分 析 算 法 完全 支持 非 局 部 变量 ) 则 重新 映射 为 该 上 限 之 内 的 引用 编号 ， 只 要 仍 有 
未 使 用 的 位 向 量 赋值。 

代码 清单 8.14 的 实现 在 设计 时 通过 禁止 空 集合 段 , 将 一 个 稀疏 集合 中 链接 在 一 起 的 集合 段 
的 数目 减少 到 最 小 数目 。 单 元 素 集中 的 元 素 仅 使 用 一 个 段 结 点 ， 并 且 交 运算 将 删除 作为 结果 的 
空 段 。 并 运算 和 交 运 算 均 尽 可 能 地 尝试 复 用 集合 段 。 一 个 段 中 的 元 素数 目 应 根据 硬件 作 相应 调 
整 ， 尽 可 能 多 地 用 一 次 原子 的 机 器 操作 访问 一 个 段 ， 这 一 目标 还 须 同时 平衡 与 由 子 树 指针 的 数 
目 所 决定 的 结 点 大 小 之 间 的 关系 ， 将 内 存 浪费 减少 至 最 小 。 编 译 一 个 真正 有 意义 的 程序 涉及 内 
存 中 树 表 示 的 大 规模 内 存 用 法 ， 因 而 这 是 一 个 重要 的 考虑 因素 。 

如 果 要 求 一 个 树 变换 程序 处 理 超出 常 驻 内 存 所 能 容纳 的 结 点 ， 树 结 点 的 实现 很 容易 转换 为 
一 个 虚拟 内 存 方 案 ， 除 了 一 个 随机 访问 文件 之 外 ， 无 需要 求 有 操作 系统 的 支持 。 我 们 在 一 个 结 
点 块 的 文件 中 显 式 地 分 配 结 点 的 空间 ， 而 不 是 使 用 NEW 和 Dispose 命令 管理 指针 。Tree 类 
型 不 再 是 一 个 指针 ， 而 是 一 个 指向 文件 的 基数 索引 。Modula-2 这 类 现代 程序 设计 语言 的 信息 隐 
藏 能 力 的 优点 之 一 , 是 树 变 换 程 序 的 客户 例 程 无 须 修 改 , 即 可 适应 树 结 点 实现 的 这 种 彻底 改变 。 
代码 清单 8.15 展示 了 在 一 个 虚拟 内 存 版 本 的 树 结 点 模块 中 ， 文 件 管理 方面 是 如 何 实现 的 。 


代码 清单 8.15 ”一 个 基于 虚拟 内 存 的 树 结 点 模块 
MODULE Trees; 


FROM FileSystem IMPORT (* 或 等 效 的 其 他 模块 *) 
BinaryFile, (* 不 透明 的 文件 类 型 *) 
RandomOpen, 


(* filevar: BinaryFile; maxBytes: CARDINAL *) 
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'RandomRead, 

(* filevar: BinaryFile; position: CARDINAL; block: ADDRESS; nBytes: CARDINAL *) 
RandomWrite; 

(* filevar: BinaryFile; position: CARDINAL; block: ADDRESS; nBytes: CARDINAL *) 


EXPORT 
Tree, NodeKind, Nill, (* 基本 类 型 *) 
BuildTree, ParseTree, DisposeTree, (* 过 程 *) 
IntTree, TreeInt, IntSett, (* 整数 的 强制 类 型 转换 *) 
Union, Intersect, SubSett, InSett; (* 集合 运算 过 程 *) 
CONST 
Nill = 0; 
CONST 
BlockSize - 1024; (* 一 个 块 中 的 结 点 数目 *) 
MemBlocks = 50; (* 内 存 中 块 的 数目 *) 
MaxBlocks = 1000; (* 文件 中 块 的 最 大 数目 *) 
TYPE 


Tree - CARDINAL; 


NodeBlock - ARRAY [0 .. BlockSize - 1] OF Node; 


CONST 
BlockBytes - SIZE(NodeBlock); (* 一 个 块 占 用 的 字 节 数 *) 
VAR 
NodeFile: BinaryFile; (* 磁盘 文件 ， 用 于 存放 被 交换 出 的 树 9) 
LastTree: Tree; (* 已 分 配 的 树 的 数目 *) 
NextTime: CARDINAL; (* 当前 的 时 间 *) 
LastBlock: CARDINAL; (* 文件 扩展 *) 
InMemoryTrees: ARRAY [1 .. MemBlocks] OF NodeBlock; 
InMemoryInfo: ARRAY [1 .. MemBlocks] OF RECORD 
Blockno: [0 .. MaxBlocks - 1]; 
Dirty: BOOLEAN; (* 为 真 则 将 此 块 写 入 磁盘 *) 
Age: CARDINAL; (* 用 于 计算 最 近 最 少 使 用 (LRU)， 越 小 的 数 表 示 用 得 越久 *) 
END; 


BlockIndex: ARRAY [0 .. MaxBlocks - 1] OF [0 .. MemBlocks]; 
(* 指向 InMemoryTrees 的 索引 ， 和 否则 为 0 *) 


PROCEDURE Touch(theTree: Tree; MakeDirty: BOOLEAN): CARDINAL; 
(* 返回 指向 InMemoryTrees 的 索引 *) 


VAR 
lru, i, k: CARDINAL; 
BEGIN 
i := BolckIndex[theTree]; 
IF i = 0 THEN (* 不 在 内 存 中 ， 找 最 老 的 块 交换 *) 


lru := NextTime; 
FOR k :- 1 TO MemBlocks DO 
WITH InMemoryInfo[k] DO 
IF Age « lru THEN 
i := k; 
lru := Age 
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END 
END 


END; (* FOR k *) 
WITH InMemoryInfo[i] DO 


END 


ELSE 


IF Dirty THEN 
RandomWrite(NodeFile, Blockno * BlockBytes, InMemoryTrees [i], BlockBytes) 
END; 
Blockno := theTree DIV BlockSize; 
IF Blockno » LastBlock THEN 
RandomWrite (NodeFile, Blockno * BlockBytes, InMemoryTrees[i], BlockBytes); 
LastBlock :- Blockno 
ELSE 
RandomRead(NodeFile, Blockno * BlockBytes, InMemoryTrees[i], BlockBytes) 
END; 


Age :- NextTime; 
Dirty :- MakeDirty 
(* WITH InMemoryInfo[i] *) 


WITH InMemoryInfo[i] DO 


Age :- NextTime; 
IF MakeDirty THEN 

Dirty :- TRUE 
END 


END (* WITH InMemoryInfo[i] *) 


END; (* IF i = 0 *) 
NextTime := NextTime + 1; 
RETURN i 
END Touch; 
PROCEDURE NewTree(): Tree; 
BEGIN 
LastTree := LastTree + 1; 


RETURN LastTree 
END NewTree; 


PROCEDURE BuildTree(name: NodeKind; first, second, third, decn: Tree): Tree; 


VAR 
theTree: Tree; 
BEGIN 
theTree := NewTree(); 
WITH InMemoryTrees[Touch(theTree, TRUE)][theTree MOD BlockSize] DO 
NodeName :- name; 
Left :- first; 


Middle := second; 
Right :- third; 


Decor 


END; 


decn 


RETURN theTree 
END BuildTree; 


PROCEDURE ParseTree(theTree: Tree; name: NodeKind 
; VAR first, second, third, decn: Tree): BOOLEAN; 


BEGIN 


IF theTree - Nill THEN 
RETURN name - None 


ELSE 
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WITH InMemoryTrees[Touch(theTree, FALSE)][theTree MOD BlockSize] DO 
IF NodeName «» name THEN 
RETURN FALSE 
ELSE 
first := Left; 





END ParseTree; 


PROCEDURE InitTrees; (* 模块 初始 化 代码 *) 
VAR 
n: CARDINAL; 
BEGIN 
RandomOpen(NodeFile, MaxBlocks * BlockBytes); (* 或 诸如 此 类 的 代码 *) 
LastTree := Nill; 
NextTime :- 1; 
FOR n := 1 TO MaxBlocks DO 
IF n < MemBiocks THEN 
BlockIndex[n - 1] := n 
ELSE 
BlockIndex[n - 1] := 0 
END 
END; 
FOR n:- 1 TO MemBlocks DO 
WITH InMemoryInfo[n] DO 
Age :- 0; 
Blockno :- n - 1; 


Dirty := FALSE; 
RandomWrite(NodeFile, Blockno * BlockBytes, InMemoryTrees [n], BlockBytes) 
END 
END; 
LastBlock :- MemBlocks - 1 
END InitTrees; 





BEGIN 
InitTrees; 
END Trees; 


在 这 一 实现 中 ， 函 数 Touch 完成 了 所 有 的 重要 工作 。 给 定 一 个 虚拟 的 树 指针 〈 即 一 个 指 
向 文件 的 索引 )， 该 函数 判定 该 块 是 否 在 内 存 中 :如果 不 在 ， 则 找 出 一 个 最 近 最 少 使 用 的 块 与 
该 块 交 换 。 该 函数 返回 一 个 指向 内 存 数组 的 索引 ， 指 明了 包含 该 绪 点 的 块 。 以 类 似 方式 索引 的 
另 一 信息 数组 保存 了 最 近 访 问 时 间 的 记录 《依据 一 个 每 次 调用 时 累加 的 计数 器 )， 以 及 一 个 表 
示 该 块 被 置换 时 是 否 希 要 写 入 磁盘 的 标志 。 对 于 特殊 的 引用 分 布 情况 还 存在 更 好 的 交换 算法 ， 
但 上 述 算法 对 于 大 多 数 情况 已 经 是 相当 好 了 。 


8.10 实现 TAG 驱动 的 树 变换 


给 定 如 代码 清单 8.14 所 示 的 树 结 点 实现 ， 根 据 一 个 TAG 构造 一 个 树 变换 程序 又 再 成 为 机 
械 抄写 的 体力 活 。 我 们 从 第 4 章 介绍 的 递归 下 降 构造 方法 出 发 ， 为 它 扩 展 如 第 5 章 所 示 的 属性 
求 值 。 对 树 模板 的 分 析 是 通过 适当 地 调用 导入 的 函数 ParseTree 来 完成 的 ， 轮 流 尝试 每 一 模 
板 ， 从 每 一 个 失败 的 产生 式 回 退 ， 直 至 所 有 断言 求 值 为 真 。 因 而 ， 一 个 非 终 结 符 的 最 简单 实现 
方式 是 一 个 布尔 函数 ， 如 果 没 有 产生 式 可 分 析 至 结束 ， 则 该 函数 返回 假 。 在 某 些 情况 下 ， 数 据 
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流 分 析 可 证 明 分 析 过 程 是 确定 的 ， 并 且 可 消除 条 件 测试 。 表 8-5 给 出 了 将 每 一 种 文法 形式 机 械 
翻译 为 Modula-2 语言 的 方案 。 代 码 清单 8.16 具体 演示 了 代码 清单 8.13 的 循环 不 变 TAG 中 前 


三 条 产生 式 的 翻译 代码 。 


表 8-5 将 TAG 形式 翻译 为 Modula-2 语言 的 代码 


文法 形式 
Nonterminal... 
> ...d 


Jinherited: typename 
Tderived: typename 
— «Kind left rite>%deco 


— atree: «Top <Inner>> 


atree: NonTerm linhatt Tsynatt 


(Iattr - value] 
l [otherwise] ...) 


{attr = «Kind left rite>%deco] 


=> atree 


Modula-2 代码 
PROCEDURE NonTerminal(theTree: 
VAR 
ok: BOOLEAN; 
any: Tree; 
BEGIN 
ok := TRUE; 


Tree; ...): BOOLEAN; 


RETURN ok 
END NonTerminal; 
inherited: typename; 
VAR derived: typename; 
IF NOT ok THEN 
ok := ParseTree(theTree, Kind, left, rite, any, deco); 
IF ok THEN 


END 


END; 
IF NOT ok THEN 
atree :- theTree; 
ok :- ParseTree(atree, Top, temp, any, any, any); 
IF ok THEN i 
Ok := ParseTree(temp, Inner, any, any, any, any); 
END 
END; 
IF ok THEN 
Ok := NonTerm(atree, inhatt, synatt) 
END; 
IF ok THEN 
IF attr - value THEN 
ELSE 
END 
END; 
IF ok THEN 
attr := BuildTree(Kind, left, rite, nill, deco) 
END; 
IF ok THEN 
TransformTree(theTree, atree) 
END; 


代码 清单 8.16 ”根据 代码 清单 8.13 中 TAG 编写 的 一 个 样板 树 变换 程序 


PROCEDURE LoopCon(theTree: 


Tree; notcon: Sett 


; VAR outnot: Sett; VAR concode: Tree): BOOLEAN; 
VAR 
ok: BOOLEAN; 
body, moved, expn, thenn, ellse, movet, movee, xform, temp: Tree; 
plv, newnot, notl, notr: Sett; 
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iscon: BOOLEAN; 
varno: INTEGER; 





BEGIN 
ok := ParseTree(theTree, Loop, body, temp, temp, plv); 
IF ok THEN 
ok := LoopCon(body, plv, newnot, moved) 
END; 
IF ok THEN 
concode := Nill; 
outnot :- Union(notcon, newnot); 


TransformTree(theTree, BuildTree(Semi, moved, BuildTree 
(Loop, body, Nill, Nill, plv) 
, Nill, Nill)); 
END; 
IF NOT ok THEN 
ok := ParseTree(theTree, Exit, temp, temp, temp, temp) 
END; 
IF ok THEN 
outnot := notcon; 
concode := Nill 
END; 
IF NOT ok THEN 
ok := ParseTree(theTree, Iff, expn, thenn, ellse, temp) 
END; 
IF ok THEN 
ok := ExpnCon(expn, notcon, iscon, moved) 
END; 
IF ok THEN 
ok := LoopCon(thenn, notcon, notl, movet) 
END; 
IF ok THEN 
ok := LoopCon(ellse, notcon, notr, movee) 
END; 
IF ok THEN 
outnot := Union(notl, notr) 
END; 
IF ok THEN 
IF iscon - FALSE THEN 
xform :- theTree; 
concode := BuildTree (Semi, moved, BuildTree (Semi, movet, movee, Nill, Nill) 
, Nill, Nill) 
ELSE 
newvar (varno); 
xform := BuildTree(Iff, BuildTree(Varr, Nill, Nill, Nill, IntTree(varno)) 
, thenn, ellse, Nill); 
concode :- BuildTree (Semi, BuildTree (Assign, BuildTree(Varr, Nill, Nill, Nill 
, intTree(varno)), expn, Nill, Nill), BuildTree(Semi, movet, movee, Nill, Nill) 


, Nill, Nill); 
END 
END; 
IF ok THEN 
TransformTree(theTree, xform) 
END; 
RETURN ok 


END LoopCon; 
OC 


代码 清单 8.14 中 的 TAG 实现 以 及 表 8-5 存在 一 种 危险 ， 必 须 通过 以 上 所 示 代 码 之 外 的 其 他 
方式 来 预防 。 问 题 出 在 抽象 语法 树 的 一 个 特定 结 点 被 变换 时 。 由 于 树 的 其 他 部 分 或 其 他 活动 着 的 
非 终结 符 〈 活 跃 过 程 》 可 能 引用 了 正 被 变换 的 结 点 ， 过 程 TransformTree 必须 用 置换 结 点 中 
内 容 的 副本 来 替换 结 点 记录 中 的 内 容 ; 如 果 用 于 置换 的 树 包含 原 结 点 作为 一 棵 子 树 ， 变 换 结果 将 
导致 图 8-21 所 示 的 循环 结构 ， 而 不 是 最 终 想 要 的 树 。 在 循环 不 变 代码 的 移动 和 提升 优化 中 很 可 
能 出 现 这 种 情况 ， 其 中 分 号 结 点 构建 在 引用 结 点 之 上 。 在 手工 实现 变换 文法 时 ， 编 译 程序 设计 人 
员 须 预防 这 一 危害 。 诸 如 TAG 编译 程序 这 类 机 械 的 “编译 程序 一 编译 程序 ” 则 可 通过 适当 的 数 
据 流 分 析 检 测 这 一 错误 ， 并 制作 一 个 引用 结 点 的 新 副本 加 以 改正 。 代 码 清单 8.16 中 的 样板 代码 
通过 重 构 引 用 结 点 正确 地 避免 了 这 一 问题 〈 请 注意 图 8-21 所 示 两 个 文法 之 间 的 区 别 )。 

Transform latree:tree { 错误 的 方法 } 


一 node:«LOOP body» 
=> «SEMI atree node» 


asas LOOP [f body 





body 
26532 
a) 
b) 
? 
le Z 
= 24160 body 一 全 
26532 
c) 
Transform latree:tree { 正确 的 方法 ) 


一 «LOOP body> 
=> <SEMI atree <LOOP body>> 


8-21 树 变换 的 错误 方法 。 第 一 步 〈 图 b) ERA Loop 结 点 (图 a) 之 上 构建 了 一 个 
新 的 SEMI 结 点 。 最 后 一 步 〈 图 co 将 新 的 SEMI 结 点 复制 到 原 树 之 上 ， 导 致 一 
个 循环 链接 .图 中 的 数字 表示 物理 内 存 位 置 。 第 二 个 文法 则 会 构建 一 个 新 的 LOOP 
结 点 ， 从 而 当 原 树 被 新 树 取代 时 ， 与 循环 体 的 连接 将 保持 如 图 b 所 示 的 情况 


小 结 


本 章 介 绍 了 变换 属性 文法 “TAG)， 它 提供 了 一 种 语言 用 于 定义 优化 变换 和 代码 生成 。 一 个 TAG BE 
是 一 个 树 变 换文 法 ， 同 时 也 是 一 个 属性 文法 。 树 变换 文法 “TTG) 定义 了 从 一 个 输入 文法 的 树 到 一 个 输 
出 文法 的 树 之 间 的 映射 。 回 顾 第 5 章 ， 属 性 文法 (AG) 是 一 个 上 下 文 无 关 文法 ， 并 为 其 中 的 每 一 非 终结 
符 扩展 了 相关 联 的 属性 。 属 性 的 求 值 与 产生 式 的 应 用 联系 在 一 起 。 属 性 值 可 在 分 析 树 中 向 上 或 向 下 传递 。 
TAG 的 定义 域 是 中 间 低 级 树 〈ILT) 的 集合 ， 即 编译 程序 前 端 所 产生 程序 的 树 结构 的 中 间 变 换 形 式 。ILT 
与 分 析 树 的 区 别 在 于 它 尽 可 能 多 地 包含 了 低级 的 类 机 器 代码 细节 ， 并 且 可 删除 无 语义 动作 的 非 终结 符 。 

本 章 介绍 了 树 文法 的 表示 法 ， 它 不 受 输入 单词 固有 次 序 的 约束 ， 而 是 由 编译 程序 设计 人 员 人 负责 将 适 
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当 的 属性 求 值 次 序 告知 编译 程序 生成 工具 ， 这 就 有 可 能 避免 对 属性 文法 的 大 量 分 析 以 确定 一 种 高 效 的 或 
最 优 的 求 值 次 序 。 

本 章 还 介绍 了 如 何 将 中 间 代 码 树 构造 为 串 文 法 中 的 综合 属性 ， 并 作为 一 种 有 效 途 径 连 接 编译 程序 前 
端的 串 文 法 与 后 端 定义 优化 和 代码 生成 的 树 文法 。 本 章 描 述 了 代码 优化 变换 的 数据 流 分 析 用 法 ， 并 给 出 
了 实用 变换 优化 的 综述 。 


符号 
一 “分隔 一 个 TAG 产生 式 的 右 部 。 
n Sema. 

U 集合 的 并 。 


AST Abstract Syntax Tree， 抽 象 语法 树 。 

CSE Common Subexpression Elimination， 消 除 公共 子 表 达 式 。 
DFA Data-Flow Analysis， 数 据 流 分 析 。 

ILT Intermediate Low-level Tree， 中 间 低 级 树 。 

PLV Persistent Loop Variables， 持 久 循 环 变量 。 

TAG Transformational Attribute Grammar， 变 换 属性 文法 。 
TTG Tree-Transformational Grammar， 树 变换 文法 。 


abstract syntax tree (抽象 语法 树 ) 
CD. 从 分 析 树 中 删除 不 必要 的 信息 后 ， 得 到 源 程序 的 更 高 效 表 示 。 
(2) 提炼 了 源 程 序 语法 结构 的 分 析 树 (不 保留 空格 、 换 行 符 、 标 识 符 和 关键 字 的 拼写 等 )。 

data-flow algorithm (数据 流 算法 ) 
iterated, monotonic CALAN. WBA) ”在 每 一 次 迭代 中 ， 集 合 始终 如 一 地 递增 或 递减 ， 且 不 可 改 

变 增 减 的 方向 。 

DFA (数据 流 分析 〉 ”数据 流 分 析 用 于 在 整个 计算 单元 中 追踪 数据 的 流向 。 

decoration (装饰 ) 与 一 棵 抽象 语法 树 中 某 一 结 点 建立 适当 关联 的 任意 数据 。 

generator template 〈 生 成 程序 模板 ) ”定义 了 输出 语言 。 

graph (H) RGV, E ) 是 一 个 如 下 的 结构 ， 它 由 顶点 集 V = {m,…}、 边 集 E = { eu … } 以 及 关联 函数 
FE 一 VxV 组 成 ; 例如 在 所 ej)=(v v.)rPs ej BT E, yw 和 vi 属于 V。 二 元 组 (v, vi ) 标 明了 一 条 从 
v EHE I v, HI e; 的 端点 。 

directed graph (有 向 图 ) ”一 个 图 ， 其 中 每 一 条 边 的 端点 都 是 有 序 的 。 在 以 下 所 示 的 图 中 ， 边 ( wy, u ) 
在 图 中 ,但 ( wz, ui ) 不 在 图 中 ， 因 为 不 存在 一 条 从 ww 连接 到 u 的 边 。 


U3 u4 
uz 


ui 


lattice (48) 集合 L 以 及 交 运 算 “ 站 ”和 并 运算 “U” 称 为 格 ， 当 且 仅 当 L 是 一 个 偏 序 集 ， 并 且 对 工 中 
的 任意 x、y Riz 以 下 公理 成 立 ; 
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(1) xflysyfix A xUy=yUx (交换 律 ) 
(2) kNyNz=xN 0ND B 
xUp»Uz-xUGU2 CERO 
(3) xU@Ny)=x E , 
xN@Uy)=x 《吸收 律 》 


match template (匹配 模板 〉 ”定义 了 一 个 变换 文法 中 的 输入 语言 。 
partial order (RÆ) ”集合 X 上 的 二 元 关系 < 是 X 的 一 个 偏 序 ， 如 果 它 是 自 反 的 、 传 递 的 和 反对 称 的 ， 
即 对 X 中 的 任意 x、y 和 >z 均 满 足 : 
R: xx CARED 
T xsyHyszWAS x<z (传递 性 ) 
A: ”存在 x、y， 使 得 x<y 成 立 ， 但 y<x 不 成 立 (反对 称 性 ) 
例子 ， 自 然 数 集合 上 的 < 关系 ; 一 个 集合 的 第 集 上 的 关系。 
transformational grammar (变换 文法 ) ”一 个 上 下 文 无 关 文 法 , 其 产生 式 形 如 “P 一 ”< 匹配 模板 > > 
< 生成 程序 模板 > ”。 
transformations (变换 ) 
code elimination (代码 消除 ) ”从 程序 树 中 剪 枝 ， 丢 弃 多 余 的 分 支 。 
code motion (MBH) ”将 代码 从 程序 中 频繁 执行 的 地 方 移 至 不 经 常 使 用 的 地 方 。 
code selection 《代码 选择 ) ”对 树 进行 装饰 ， 以 备 在 最 后 一 遍 中 将 树 平展 以 生成 代码 。 
translation grammar 〈 翻 译文 法 ) ”同时 产生 输入 语言 和 输出 语言 。 
tree 〈 树 ) “如果 一 个 连通 、 非 空 的 图 不 含 封闭 路 径 〈 即 无 环 的 )， 则 称 其 为 树 。 以 下 为 树 的 两 个 例子 : 


注意 一 个 有 向 图 是 一 棵 有 向 树 ， 如 果 它 有 一 个 根 结 点 ， 从 该 结 点 出 发 到 每 一 其 他 结 点 均 存 在 一 条 
有 向 路 径 ， 并 且 作 为 其 基础 的 无 向 图 是 一 棵 树 。 
tree grammar ( 树 文法 ) ”是 一 个 文法 ， 其 输入 字母 表 由 树 结 点 及 其 连接 组 成 ， 而 不 是 由 字符 或 从 一 个 
线性 串 扫描 得 到 的 单词 组 成 。 


练习 


1. 使 用 本 章 介 绍 的 前 缀 波兰 表示 法 ， 将 以 下 程序 片段 改写 为 树 。 标 出 运算 符 结 点 的 名 字 ， 从 而 a + 2 将 
写 为 <Plus <ID>%a <NUM>%2>。 
CD (x + y) / (x - y) 


(b) next := temp - base * 3 + 1 
Cc) a :- 1; b := -a 
(d) IF tx < ty + ent THEN ab := -1 ELSE ab := 0 END 
Ce) REPEAT 
sum := sum + v * v; 
IF (v > eps) AND (v < ovf) THEN v := v + delta END 


UNTIL sum »- goal 
(D struct.lnk^^.fld 


2. 将 代码 清单 8.1 中 的 文法 应 用 到 以 下 表达 式 树 ， 尽 可 能 多 地 折 和 登 常量 。 给 出 所 应 用 的 产生 式 ， 包 括 属 


2 
性 流 。 假 设 符号 表 包 含 以 下 这 些 标识 符 : 


dan TRUE, 6 
paul FALSE, 88 
sam TRUE, 10 


(a) «Minus <ID>%paul «Star <ID>%dan <NUM>%4>> 
(b) «Plus «Star <ID>%dan <NUM>%3> «Divd <ID>%sam <NUM>%2>> 
(c) «Plus «Plus <ID>%paul <NUM>%5> <ID>%sam> 


3. 将 练习 1 中 的 程序 片段 改写 为 四 元 式 ， 并 画 出 所 有 的 基本 块 。 

4. 重新 考虑 代码 清单 8.4 中 的 向 前 数据 流 问 题 ， 但 选用 的 集合 应 保证 你 的 算法 能 够 捕获 对 未 定义 变量 
《例如 变量 c) 的 使 用 。 

5， 修 改 代码 清单 8.3 中 的 程序 ， 使 之 包含 一 条 对 变量 c 进行 赋值 的 语句 ， 然 后 重新 考虑 代码 清单 8.4 和 
8.5 中 的 向 前 和 向 后 数据 流 分 析 问 题 ， 并 证 明 这 一 修改 的 正确 性 。 可 使 用 练习 4 中 改进 的 向 前 数据 流 
算法 。 

6. 修改 代码 清单 8.6 的 数据 流 分 析 属 性 文法 ， 使 之 能 找 出 单个 循环 中 的 持久 循环 变量 。 


复习 小 测验 





指出 下 列 陈 述 是 否 正确 。 

1， 抽 象 语法 树 是 分 析 树 的 另 一 种 形式 。 

. 树 文法 的 输入 字母 表 由 从 线性 串 中 扫描 得 到 的 单词 组 成 。 

. TAG 生成 的 树 与 程序 树 具 有 相同 的 根 结 点 。 

在 一 个 变换 文法 中 ， 输 入 语言 和 输出 语言 本 质 上 是 不 同 的 语言 。 

一 个 TAG 是 一 个 TTG， 因 而 也 是 一 个 AG. 

文法 不 会 受 限于 输入 文件 中 任何 固有 的 单词 次 序 。 

.借助 于 一 个 识别 串 文 法 并 且 以 一 个 树 文 法 作为 其 翻译 部 分 的 翻译 文法 ， 可 建立 编译 程序 前 端的 串 文 法 
与 定义 了 优化 与 代码 生成 的 树 文法 之 间 的 联系 。 

8. 装饰 是 与 一 个 抽象 语法 树 的 结 点 相关 联 的 任意 数据 集 。 

9. 与 串 文 法 相 比 ， 树 文法 完全 是 确定 的 。 

10， 最 大 咀嚼 启发 式 方法 用 于 在 变换 文法 中 将 结 点 与 模板 匹配 时 ， 选 用 最 小 的 、 最 精确 的 产生 式 模板 。 


编译 程序 实验 项 目 


1. 改写 你 的 编译 程序 文法 ， 将 其 前 端 和 后 端 分 离 ， 从 而 由 前 端 构建 一 棵 树 ， 后 端 根据 该 树 生成 IBSM 代码 。 

2. 选择 本 章 讨 论 的 一 种 或 多 种 优化 方法 ， 为 每 一 种 优化 编号 一 个 完整 的 TAG。 

3. 将 你 的 文法 合并 为 一 个 TAG， 然 后 在 TAG 编译 程序 上 编译 它 ;或 根据 你 的 文法 ， 使 用 Modula-2 之 类 
的 程序 设计 语言 编写 一 个 优化 编译 程序 。 
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第 9 章 ， 代 码 生成 与 优化 


RES 

。 介绍 代码 生成 与 优化 的 高 级 课题 

* 探讨 循环 优化 与 资源 分 配 问题 

。 讨论 基于 图 着 色 的 寄存 器 分 配 以 及 表达 式 中 的 寄存 器 分 配 
。 演示 零 地 址 代码 如 何 转换 为 寄存 器 机 器 代码 

。 在 编译 时 的 栈 中 模拟 代码 的 执行 

。 给 出 根据 IBSM 生成 基于 寄存 器 的 代码 的 一 个 实例 

。 演示 在 树 文法 中 实现 的 处 理 器 调度 ， 它 构成 一 个 有 向 无 环 图 
。 考虑 面向 RISC、 流 水 线 以 及 向 量 处 理 器 的 编译 程序 设计 


9.1 简介 


迄今 为 止 ， 本 书 中 的 大 多 数 代码 生成 练习 都 是 面向 Itty Bitty 栈 机 器 ， 这 种 机 器 的 指令 集 非 
常 简单 。 真 实 的 计算 机 并 不 是 以 这 种 方式 建造 的 ， 理 由 非常 简单 ; 新 奇 和 精彩 的 指令 集 令 计算 
机 运行 更 快 ， 而 高 速 计算 机 的 销量 比 慢 速 计算 机 更 好 。 目 前 还 没有 很 好 地 开展 对 体系 结 洁 构 之 间 
以 及 体系 结构 与 性 能 之 间 的 考虑 因素 的 研究 ， 大 多 数 更 好 的 计算 机 设计 完全 源 自 一 些 天 才 计 算 
机 设计 人 员 的 灵光 一 现 ， 他 们 直觉 地 把 握 到 哪些 最 新 技术 可 支持 人 们 可 能 正在 找寻 的 特性 。9 编 
译 程序 设计 人 员 一 直 追 求 的 是 正 交 的 指令 集 ， 这 令 他 们 更 容易 维持 生计 ; 但 以 速度 为 关键 要 素 
的 代码 通常 采用 汇编 语言 编写 ， 这 个 市 场 是 由 速度 痴迷 者 而 不 是 编译 程序 设计 人 员 来 驱动 的 。 

有 一 类 重要 的 优化 技术 在 很 大 程度 上 独立 于 计算 机 体系 结构 ,但 也 往往 无 法 很 好 地 遵循 基 
于 文法 的 方法 ， 这 类 优化 技术 就 是 循环 优化 。 第 8 章 描述 了 一 些 持久 循环 变量 (PLV), KR 
变 代 码 移动 、 循 环 的 通用 数据 流 分 析 等 相关 问题 ， 并 展示 了 如 何以 变换 属性 文法 (TAC) 表达 
这 些 分 析 与 优化 。 本 章 更 深入 地 钻研 如 何 令 循环 执行 得 更 快 的 特殊 问题 ， 包 括 归纳 变量 转换 、 
循环 展开 与 融合 以 及 线性 化 数组 (可 看 作 是 循环 展开 的 一 种 特殊 情况 ) 等 。 公 开发 表 的 研究 广 
献 很 少 涉及 这 些 概念 的 实现 ， 本 章 也 不 像 先前 那样 详尽 地 介绍 这 些 实现 ， 而 是 将 更 多 的 细节 和 留 
待 读者 充分 发 挥 自己 的 创造 性 。 

本 章 还 将 描述 非常 规 的 计算 机 体系 结构 给 编译 程序 设计 人 员 带 来 的 特殊 问题 ， 其 中 最 重要 
的 问题 包括 内 存 与 寄存 器 分 配 、 奇 形 怪 状 指令 〈 又 称 巴 洛克 指令 )、 资 源 调度 等 通用 问题 。 这 
些 问题 中 的 每 一 个 都 很 难 用 一 种 基于 文法 的 编译 程序 设计 方法 处 理 ， 但 对 其 中 的 某 些 问题 存在 
一 些 有 效 的 折 中 方法 ， 可 在 一 个 基于 文法 的 编译 程序 中 取得 相当 好 的 性 能 ， 同 时 ， 本 章 还 将 涉 
猿 这 些 问 题 的 其 他 处 理 方法 。 应 注意 的 是 ， 通 用 循环 优化 技术 与 向 量 计算 机 所 要 求 的 处 理 方法 
AMS NEEM. 


9.2 ”循环 优化 


大 多 数 的 计算 机 程序 几乎 将 所 有 运行 时 间 都 花费 在 内 循环 ， 而 这 些 代码 仅 占 全 部 代码 的 
10% 《甚至 更 少 )。 因 而 ， 为 循环 优化 而 付出 的 努力 会 有 远 高 出 正常 比例 的 回报 。 
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9.2.1 循环 的 范围 分 析 

在 我 们 想到 的 所 有 针对 性 能 回报 的 优化 分 析 中 ， 最 简单 的 可 能 是 将 范围 分 析 扩展 到 循环 。 
其 性 能 回报 并 不 限于 各 个 循环 内 的 代码 ， 而 是 延伸 到 整个 程序 ， 同 时 ， 还 可 省 略 全 面 的 范围 检 
查 ， 以 及 用 更 短 的 变量 和 算术 运算 符 替 换 程 序 员 选 用 的 运算 符 〈 取 决 于 目标 机 器 硬件 )。 

如 前 所 述 ， 除 用 于 循环 之 外 ， 标 量变 量 的 范围 分 析 在 模拟 执行 中 是 一 件 挺 简 单 的 事情 。 然 
而 ， 持 久 循环 变量 的 范围 还 依赖 于 循环 的 迭代 次 数 ， 而 在 编译 时 并 不 是 总 能 推断 迭代 的 次 数 。 
本 小 节 讨 论 的 情况 是 要 么 迭代 次 数 是 可 推断 的 ， 要 么 可 建立 迭代 次 数 的 边界 。 

最 简单 的 情况 显然 是 FOR 循环 结构 ， 其 中 迭代 次 数 由 程序 员 指定 的 控制 变量 范围 设置 。 只 
要 起 始 值 和 终止 值 是 常量 ， 那 么 迭代 次 数 也 是 常量 。 在 少数 情况 下 ， 控 制 变量 的 起 始 值 和 终止 
值 是 由 同一 (非常 量 ) 表达 式 的 值 进行 常量 置换 得 到 ; 这 时 同样 也 可 产生 一 个 常量 的 迭代 次 数 ， 
只 是 需 花 费 更 多 的 编译 时 开销 而 已 。 例 如 ， 


FOR i := (n-1) * 3 TO n* 3 + 8 DO 


常量 折 登 变换 将 累加 的 常量 部 分 向 上 移 至 表达 式 树 的 根 结 点 ， 再 加 上 消除 公共 子 表达 式 的 
分 析 即 有 可 能 识别 这 类 循环 的 范围 。 

我 们 已 知 常量 表达 式 分 析 只 是 范围 分 析 的 一 种 特例 ， 因 而 对 于 起 始 值 和 终止 值 之 差 不 是 一 
SHEN FoR 循环 而 言 , 这 只 是 识别 和 建立 控制 变量 边界 的 一 小 步 。 范围 分 析 已 可 确定 起 始 
值 和 终止 值 的 边界 ， 起 始 值 的 下 界 和 终止 值 的 上 界 直 接 组 成 了 控制 变量 的 边界 。 

在 其 他 循环 结构 中 ， 分 析 过 程 更 复杂 一 些 。 有 时 不 可 能 推断 循环 迭代 次 数 的 合理 边界 ， 但 
此 时 我 们 关心 的 并 不 是 迭代 次 数 ， 而 是 变量 的 范围 ， 后 者 通常 有 更 多 的 限制 。 我 们 只 需 特别 关 
注 持久 循环 变量 ， 给 出 这 些 变 量 的 合理 边界 后 ， 可 采用 传统 方法 确定 其 他 变量 的 范围 。 

在 大 多 数 情 况 下 但 并 非 总 是 如 此 )， 循 环 中 持久 循环 变量 的 某 个 界 是 一 个 在 循环 之 外 建 
立 的 初始 值 。 单 调 的 持久 循环 变量 就 属 这 种 情况 ， 即 循环 中 对 该 变量 的 所 有 赋值 均 令 该 变量 按 
一 个 非 负数 〈 或 非 正 数 ) 递增 〈 或 递减 )， 或 乘 以 一 个 正 数值 〈 由 对 循环 的 修改 表达 式 的 范围 
分 析 确定 )。 除 非 持久 循环 变量 在 修改 表达 式 中 直接 被 引用 ， 否 则 可 能 很 难 建立 其 单调 性 。 这 
种 分 析 是 有 价值 的 ， 因 为 经 常会 出 现 将 一 个 有 界 的 子 表达 式 (通常 是 常量 ) 直接 累加 到 持久 循 
环 变量 的 情况 。 如 果 循 环 的 控制 决策 是 测试 一 个 持久 循环 变量 与 一 个 有 界 表达 式 的 关系 ， 这 就 
建立 了 其 范围 的 另 一 个 界 ， 这 个 界 通常 在 初始 值 的 另 一 端 。 如 果 缺 少 一 种 方便 的 手段 对 循环 交 
替 执 行 的 条 件 进行 短路 求 值 (例如 在 Modula-2 语言 中 )， 程 序 员 有 时 可 能 令 持 久 循 环 变量 按 常 
量 递 增 并 设置 固定 的 上 限 ， 以 取代 ror 循环 结构 来 控制 循环 ， 对 这 类 语言 的 编译 程序 而 言 ,一 
种 有 益 的 做 法 可 能 是 寻找 这 种 情形 ， 从 而 再 建立 迭代 次 数 的 上 界 。 

当 迁 代 次 数 有 界 时 ， 一 个 直接 或 间接 作为 控制 变量 的 单调 持久 循环 变量 的 上 界 (或 下 界 )， 
仍 可 确定 为 迁 代 次 数 的 上 界 与 所 有 持久 循环 变量 的 赋值 增 量 的 上 界 之 乘积 。 这 同样 可 应 用 于 非 
单调 的 持久 循环 变量 ， 因 为 其 下 界 可 确定 为 最 大 负 增 量 的 上 界 与 迭代 数 次 的 上 界 之 乘积 。 

程序 员 引 入 的 错误 测试 也 可 用 于 建立 一 个 持久 循环 变量 的 边界 ， 只 要 它们 与 持久 循环 变量 
的 任意 赋值 语句 的 执行 路 径 相 同 即 可 。 为 达到 此 效果 ， 编 译 程序 可 利用 的 测试 仅 有 如 下 形式 : 


IF v > k THEN ErrorProc 


其 中 , 全 局 数据 流 分 析 已 确立 ErrorProc 是 一 个 没有 返回 结果 的 过 程 调用 , 或 是 一 个 类 似 Gomo 
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语句 的 控制 结构 〈 例 如 Modula-2 语言 中 的 Exrt 语句 或 C 语言 中 的 break 语句 )。 

迄今 为 止 讨 论 的 所 有 分 析 技 术 在 编译 时 间 上 几乎 都 是 线性 的 ， 即 只 需 n 次 遍历 整 棵 程序 树 
(n 是 一 个 很 小 的 固定 数 )， 再 另 加 m 次 遍历 每 一 在 套 层次 中 的 每 一 循环 体 (m 也 是 一 个 很 小 的 
固定 数 )， 就 能 收集 到 所 有 相关 的 信息 。 诚 然 ， 计 算 许多 范围 值 时 我 们 宁愿 是 保守 的 ， 但 可 证 
明 这 些 范围 值 是 正确 且 安 全 的 ， 并 且 通 常 可 产生 有 用 的 优化 效果 。 对 范围 值 的 更 精确 限制 ， 特 
别 是 那些 不 满足 上 述 标准 的 变量 的 边界 值 ， 可 能 需要 更 复杂 的 理论 证 明 以 及 指数 级 的 分 析 时 
[8]; 我 们 的 看 法 是 这 些 方法 带 来 的 性 能 改进 还 不 足以 弥补 额外 的 编译 时 间 开 销 。 

9.2.2 ”归纳 变量 | 

归纳 变量 是 一 个 序数 变量 或 编译 程序 生成 的 临时 变量 ， 该 变量 的 值 依照 循环 的 控制 变量 按 
线性 关系 变化 。 程 序 员 定 义 的 归纳 变量 在 循环 体 中 恰好 被 赋值 一 次 ， 并 且 引 用 了 该 变量 的 所 有 
执行 路 径 均 先 经 过 该 赋值 语句 ， 或 该 赋值 语句 是 无 条 件 的 ;一 个 临时 归纳 变量 通常 是 编译 程序 
生成 的 中 间 值 ， 它 根据 控制 变量 (或 男 一 归纳 变量 ) 与 循环 不 变量 的 加 法 或 乘法 计算 得 到 。 尽 
管 许多 归纳 变量 是 以 此 方式 从 控制 变量 派生 的 ， 但 其 中 一 个 很 重要 的 观念 是 它们 未 必 这 样 派 
生 。 考 虑 如 下 的 循环 例子 : 

n := 100; 

FOR i := 1 TO 10 DO 

j := i * 8 + k; 
alj, 3] := n; 
n:-n - 10 

END 

控制 变量 i 显然 是 一 个 归纳 变量 , 因而 j 也 是 一 个 归纳 变量 , 它 由 与 循环 不 变量 的 乘法 
和 加 法 派生 。 数 组 a 的 机 器 级 下 标 就 没有 那么 明显 了 ， 它 是 由 归纳 变量 j 乘 以 数组 片 的 大 小 、 
再 加 上 第 二 个 下 标 得 到 的 。 在 上 述 例子 中 ，a 也 是 一 个 归纳 变量 ， 因 为 尽管 n 是 独立 派生 的 ， 
但 它 的 值 总 是 * (-10) + 90。 归 纳 变量 分 析 的 结果 是 ， 用 于 计算 3 和 数组 下 标的 迭代 值 
的 乘法 ， 可 优化 为 循环 不 变量 的 加 法 或 减法 ， 因 而 它们 更 加 类 似 于 n 的 循环 计算 ， 这 里 当然 假 
设 了 一 次 加 法 比 一 次 乘法 〔 可 能 还 跟着 一 次 加 法 ) 的 开销 更 少 ， 通 常情 况 也 确实 如 此 。 

在 这 种 情况 下 ， 编 译 程序 将 在 循环 之 前 插入 3 的 初始 化 步骤 j := k， 然 后 用 一 个 (有希 
WERK MAG := 3 + 8 取代 循环 体 中 的 赋值 语句 。 编 译 程序 产生 的 数组 下 标 临时 变量 
也 可 执行 类 似 的 变换 。 此 时 ， 变 量具 有 与 变换 前 相同 的 值 序列 ， 但 已 从 循环 体 中 消除 了 两 条 乘 
法 语句 。 此 外 , 现在 很 容易 看 出 变量 j 是 死 的 , 因而 循环 体 中 对 该 变量 的 赋值 语句 可 一 并 消除 ， 
如 下 所 示 : - 

n := 100; 

tv := k * asize8 + abase + 3; 

FOR i := 1 TO 10 DO 

tv := tv + asizeg; 
a[tv] := n; 
n :-n- 10 

END 

数组 访问 剩 下 的 加 法 可 合并 为 一 种 索引 寻 址 方式 ， 从 而 令 性 能 进一步 提升 ， 而 这 在 涉及 乘 
法 时 是 不 可 能 实现 的 。 
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进 。 很 容易 找 出 一 个 由 其 他 归纳 变量 派生 的 归纳 变量 ， 只 要 能 证 明 该 变量 位 于 主 循环 的 执行 路 
径 上 ， 且 不 是 一 个 持久 循环 变量 ， 且 其 值 是 由 一 个 已 知 的 归纳 变量 乘 以 或 加 上 循环 不 变量 合 
的 。 也 容易 判断 一 个 仅 赋值 一 次 的 持久 循环 变量 是 否 归 纳 变量 ， 只 要 看 该 变量 的 修改 是 否 限制 
在 与 一 个 循环 不 变量 的 加 法 或 减法 即 可 。 我 们 的 目标 是 将 所 有 派生 的 归纳 变量 转换 为 持久 循环 
变量 。 在 找 出 循环 不 变量 和 持久 循环 变量 后 ， 这 一 分 析 技术 最 多 再 需要 一 次 遍历 循环 体 ， 具 体 
细节 留 作 练习 。 

9.2.3 ”循环 展开 

将 循环 不 变量 移出 循环 后 ， 改 进 循环 执行 时 间 的 最 简单 且 最 有 效 的 优化 是 循环 展开 。 一 个 
固定 迁 代 次 数 的 短 循环 可 完全 展开 ， 彻 底 消 除 循环 的 开销 ， 并 有 可 能 同时 将 常量 折 芍 和 消除 公 
共 子 表达 式 优化 应 用 到 数组 下 标的 计算 以 及 涉及 控制 变量 的 其 他 表达 式 。 即 便 我 们 无 法 完全 展开 
一 个 循环 ， 也 可 将 循环 展开 一 次 ， 从 而 每 次 执行 循环 时 处 理 两 个 迭代 。 这 一 小 小 的 优化 可 将 循环 
的 有 效 开销 减少 一 半 ， 并 且 为 将 消除 公共 子 表达 式 优 化 应 用 到 两 个 从 代 上 提供 了 更 多 机 会 。 

有 具有 固定 边界 的 FOR 循环 相当 常见 ,有幸 遇 到 这 种 情况 时 ,可 执行 最 简单 、 同 时 也 是 最 有 
效 的 循环 展开 。 编 译 程序 很 容易 按 所 需 的 次 数 将 循环 体 复制 多 份 ， 并 将 控制 变量 的 引用 替换 为 
常量 。 当 下 标 范围 超出 实现 人 员 定 义 的 某 一 上 限时 ， 仍 可 能 判断 由 程序 确定 的 循环 迭代 次 数 是 
否 偶数 〈 或 另 有 某 一 个 小 的 约 数 ); 只 要 再 稍 加 分 析 ， 如 果 仍 可 证 明 其 范围 是 一 个 常量 或 一 个 
小 常量 的 乘积 ， 编 译 程序 还 可 对 非 循环 不 变 的 下 标 边 界 进 行 求 值 。 然 而 在 大 多 数 情况 下 ， 下 标 
范围 的 复杂 分 析 未 必 就 是 有 道理 的 ， 除 非 是 为 向 量 处 理 器 寻找 内 循环 向 量化 的 机 会 。 

对 于 FOR 循环 以 外 的 其 他 循环 ,分 析 显 得 更 加 困难 。 归纳 变 量 分 析 可 能 仍 可 推断 迭代 的 次 
数 , 但 是 在 程序 设计 语言 支持 这 种 循环 结构 时 ， 期 望 程序 员 使 用 FOR 循环 或 其 等 价 形式 以 实现 
最 佳 性 能 并 非 没有 道理 。 然 而 ， 部 分 地 展开 WHILE 和 REPEAT 循环 可 能 仍 是 有 意义 的 ， 这 取 
决 于 目标 硬件 。 在 这 些 情况 下 ， 迁 代 片 断 之 间 必 须 有 循环 终止 的 测试 ， 不 过 尽管 如 此 ， 展 开 后 
的 循环 为 编译 程序 在 两 个 片断 之 间 消 除 公共 子 表达 式 提供 了 一 些 机 会 。 代 码 清 单 9.1 展示 了 如 
何 使 用 Modula-2 语言 的 LooP-ExrT 结构 展开 一 个 循环 。 








代码 清单 9.1 一 次 展开 一 个 WHILE 循环 


WHILE a < b DO LOOP 
b :=b-a* k; IF a >= b THEN 
a :=a +i EXIT 
END; END; 
b :=b-a* k; 
a :!:=a+ 1; 


IF a >= b THEN 


b:-b-a*k; (* a * k-ap*kek *) 
END; 


将 一 组 恰好 横 跨 一 个 多 维 数 组 的 嵌 套 循环 的 外 循环 展开 ， 相 当 于 将 数组 的 引用 理解 成 该 数 
组 好 像 被 声明 为 一 个 一 维 数组 一 样 。 因 而 ， 每 一 次 迭代 时 不 是 进行 复杂 的 多 维 下 标 计 算 ， 而 是 
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由 单个 下 标 横 穿 整个 数组 , 从 而 避免 了 额外 的 乘法 和 加 法 计算 步骤 。 这 种 技术 称 为 数组 线性 化 ， 
因为 它 使 得 代码 生成 等 价 于 一 个 线性 (一 维 ) 数组 的 代码 生成 。 然 后 线性 化 的 数组 循环 可 部 分 
展开 ,以 实现 更 多 的 性 能 改进 。 代 码 清单 9.2 仍 以 源 代码 形式 展示 了 将 一 个 数组 线性 化 的 效果 ， 
请 注意 数组 al 与 数组 a 位 于 相同 的 内 存 地 址 空间 。 


代码 清单 9.2 ”线性 化 一 个 数组 


VAR VAR 
A: ARRAY [1 .. 9, 3 .. 17] OF REAL; Al [ADR(A)]: ARRAY [1.. 135] OF REAL; 
FOR i := 1 TO 9 DO FOR i := 1 TO 135 DO 

FOR j := 3 TO 17 DO Al[i] := 0.0 
A[i, j] := 0.0 END 


END 
END 


9.3 ” 琳 存 器 与 内 存 分 配 


大 多 数 计算 机 为 程序 员 提 供 了 直接 可 用 的 几 种 不 同类 型 的 内 存 ， 这 些 内 存 的 性 能 往往 有 相 
当 大 的 差别 。 通 常 有 少量 非常 高 速 且 易 于 访问 的 内 存 ， 称 为 寄存 器 ， 另 有 大 量 较 慢 的 内 存 用 于 
保存 整个 程序 及 其 数据 。 我 们 此 时 并 不 关心 高 速 缓存 这 类 内 存 ， 因 为 本 质 上 它 对 程序 的 操作 是 
透明 的 。 高 速 缓存 类 似 于 主 存 ， 但 访问 速度 更 快 ， 它 只 是 将 最 近 未 用 到 的 数据 和 指令 转 储 到 较 
慢 的 主 存 中 。 我 们 此 时 也 不 关心 虚拟 内 存 ， 虚 拟 内 存 使 用 磁盘 文件 模仿 和 扩展 主 存 ， 但 速率 较 
低 。 虚 拟 内 存 对 于 运行 程序 而 言 也 是 透明 的 ， 因 为 对 可 用 物理 内 存 之 外 的 引用 将 引发 一 个 由 操 
作 系 统 软件 处 理 的 中 断 。 | 

许多 计算 机 体系 结构 将 寄存 器 和 主 存 空间 进一步 细 分 ， 使 得 其 中 一 些 子 集 比 另 一 些 子 集 更 
容易 访问 ， 或 赋予 其 中 某 些 空间 特殊 的 意义 。 寄 存 器 可 划分 为 地 址 寄存 器 〈 用 于 保存 主 存 的 地 
HL) 和 数据 寄存 器 《用 于 保存 中 间 计 算 结果 值 )。 主 存 可 划分 为 “ 段 ” 或 “页 ” 使 得 整个 内 存 
的 一 小 部 分 比 在 整个 内 存 中 的 任意 引用 更 加 易于 访问 。 

上 述 细 分 的 主要 理由 可 用 地 址 空间 的 概念 来 解释 ,使 用 n 个 位 可 区 分 2 个 不 同 的 对 象 或 操 
作 ， 有 65 536 个 位 置 的 内 存 地 址 空间 需要 16 位 寻 址 ， 而 4096 个 位 置 则 需要 12 位 ，256 个 位 
置 仅 需要 8 位 。 为 将 最 多 的 功能 压缩 在 一 个 有 限 的 指令 字 长 度 中 ， 我 们 希望 限制 分 配给 任 一 功 
能 的 每 一 指令 字 中 的 位 数 。 如 果 像 早期 计算 机 那样 ， 在 两 个 操作 数 相 加 时 ， 每 一 指令 由 内 存 中 任 
意 两 个 位 置 显 式 地 寻 址 ，1024 字 的 主 存 的 完整 地 址 空间 必须 在 指令 中 占用 20 位 。 如 果 令 其 中 的 
一 个 操作 数 为 单个 寄存 器 ， 则 可 将 指令 字 中 的 地 址 分 量 减 少 一 半 。 如 果 有 多 个 寄存 器 ， 则 寄存 器 
也 有 一 个 地 址 空间 :利用 3 位 即 可 为 8 个 寄存 器 寻 址 。 将 1MB 内 存 划分 为 65 536 字 节 的 段 ， 每 
次 仅 访问 其 中 的 一 个 或 两 个 段 ,就 可 从 内 存 访问 指令 中 删除 3~4 位 。 若 有 16 个 通用 寄存 器 ， 则 
每 一 寄存 器 均 需 4 位 寻 址 ， 在 可 能 涉及 2~3 个 寄存 器 的 指令 中 ， 可 以 快速 完成 累加 。 将 寄存 器 
空间 划分 为 独立 的 地 址 寄存 器 和 数据 寄存 器 ， 可 从 每 一 条 多 寄存 器 的 指令 中 消除 2 一 3 位 。 

为 有 效 利用 寄存 器 和 内 存 的 地 址 空间 ， 编 译 程序 须 决定 哪些 值 应 放 入 寄存 器 中 ， 以 及 何 时 
放 入 为 宜 。 程 序 员 看 一 眼 即 能 够 察觉 到 一 段 段 可 得 益 于 寄存 器 分 配 的 变量 用 法 ， 但 是 由 一 个 算 
法 机 械 地 得 出 同一 结论 就 远 不 止 这 样 简单 了 。C 程序 设计 语言 由 程序 员 自 己 做 出 抉择 ， 实 际 上 
这 可 能 使 得 编译 程序 尝试 正确 地 分 配 寄存 器 的 任务 更 加 复杂 。 在 计算 机 体系 结构 中 ， 这 一 问题 
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可 能 还 挫 杂 了 各 种 各 样 的 寻 址 模式 。 编 译 程序 往往 因 生成 低 效 的 代码 而 声名 狼藉 ， 因 为 编译 程 
序 设计 人 员 很 容易 就 简单 地 选择 一 种 可 正确 工作 的 寻 址 模式 ,错失 了 生成 更 小 、 更 快 代码 的 机 
会 ， 而 程序 员 毫 不 费力 即 可 洞察 到 这 些 机 会 。 
9.3.1 寡 存 器 分 配 算法 —— 

关于 最 优 的 寄存 器 分 配方 案 研 究 已 有 大 量 文献 [Chaitin, 1982; Chaitin 4, 1981; 
Chow&Hennessy, 1984; Kennedy, 1972]。 将 寄存 器 分 配给 常用 变量 的 临时 存储 空间 ， 可 看 作 等 
价 于 图 着 色 问 题 。 活 跃 变 量 在 图 中 表示 为 区 域 ， 每 一 个 待 分 配 的 寄存 器 均 有 一 种 颜色 。 该 图 将 
按 以 下 方式 着 色 : 水 平 截面 不 会 穿 过 同一 颜色 的 两 个 区 域 ， 如 图 9-1 所 示 [Chaitin, 1982]。 


SAAN 


NN 





图 9-1 基于 图 着 色 的 寄存 器 分 配 。 水 平 线 表示 在 时 间 轴 上 的 某 一 特定 时 刻 ， 有 三 个 变量 被 分 配 到 寄存 器 中 


图 着 色 算 法 为 实现 其 目标 ， 对 寄存 器 分 配 问题 的 本 质 特征 进行 了 假设 ， 最 值得 注意 的 是 有 
固定 数目 的 寄存 器 可 供 分配 ， 且 选择 哪些 变量 映射 到 寄存 器 是 在 其 他 地 方 决定 的 。 通 常 ， 映 射 
到 寄存 器 的 候选 变量 多 于 可 用 的 寄存 器 ， 而 过 于 复杂 的 判断 会 给 图 着 色 问 题 带 来 不 利 。 此 外 ， 
尽管 很 容易 选择 某 一 固定 数目 的 寄存 器 分 配给 长 期 存储 的 变量 ， 但 实际 上 可 用 寄存 器 的 真正 数 
目 还 会 随 待 求 值 表达 式 的 复杂 度 有 所 变化 。 我 们 已 找到 一 种 基于 已 知 需 求 的 分 配方 案 ， 无 需 复 
杂 的 图 着 色 即 可 取得 很 好 的 效果 ， 并 且 还 更 容易 转换 为 一 种 基于 文法 的 实现 。 

图 着 色 并 不 关心 表达 式 求 值 的 寄存 器 分 配 问 题 。 除 了 个 别 的 例外 情况 ， 大 多 数 现代 计算 机 
都 要 求 算 术 运 算 或 逻辑 运算 中 至 少 有 一 个 操作 数 必须 存放 在 数据 寄存 器 中 。 执 行 消 除 公共 子 表 
达 式 优化 后 ， 我 们 通常 希望 将 这 些 部 分 求 值 结果 分 配 到 寄存 器 中 ， 从 而 无 须 调 用 额外 的 内 存 访 
问 操作 即 可 在 后 续 代码 中 访问 它们 。 实 现 这 一 目标 的 一 般 做 法 是 创建 一 个 临时 变量 保存 公共 子 
表达 式 ， 然 后 将 该 变量 提交 给 图 着 色 或 其 他 寄存 器 分 配 算法 。 

任何 寄存 器 分 配方 法 都 必须 准备 好 处 理 寄存 器 耗 尽 的 问题 ,特别 是 在 一 个 表达 式 的 求 值 过 
程 中 。 出 现 这 种 情况 时 ， 当 前 活跃 的 寄存 器 将 溢出 (存储 ) 到 内 存 中 ， 从 而 腾 出 寄存 器 以 供 新 
的 应 用 。 每 当 执行 一 条 有 副作用 的 语句 或 调用 一 个 有 副作用 的 过 程 时 ， 如 果 它 们 可 能 访问 存放 
在 寄存 器 中 的 变量 ， 则 寄存 器 也 必须 溢出 。 

Modula-2 和 Pascal 这 一 类 强 类 型 语言 与 C 这 一 类 低级 语言 相 比 ， 可 使 编译 程序 设计 人 员 
更 容易 处 理 这 一 方面 的 问题 。 如 果 一 种 语言 允许 一 个 指针 变量 随便 访问 程序 中 的 任何 变量 ， 正 
如 C 语言 那样 (Modula-2 语言 亦 同 ， 但 必须 导入 红色 标志 SYSTEM .ADDRESS)， 编 译 程序 实 
际 上 不 可 能 推断 当前 寄存 器 中 的 变量 是 否 安全 ， 它 们 必须 全 部 溢出 到 各 自 被 指派 的 内 存 位 置 ， 
并 在 析 取 指针 后 重新 装 入 。 而 有 了 强 类 型 这 一 特性 后 ， 编 译 程序 不 仅 可 安全 地 假定 指针 的 析 取 
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不 会 威胁 任何 其 他 类 型 的 寄存 器 变量 , 还 可 假定 指针 析 取 仅 会 威胁 动态 变量 , 而 根本 不 会 影响 任 
何 局 部 变量 。 借助 于 一 次 遍历 被 调用 过 程 的 简单 数据 流 分 析 ， 即 可 很 容易 地 确定 该 过 程 是 否 威胁 
或 利用 了 它 的 变 参 或 任何 非 局 部 变量 ; 根据 该 过 程 的 寄存 器 需求 ,只 有 被 调用 过 程 真正 用 到 的 寄 
存 器 变量 才 需 要 溢出 到 内 存 中 ， 并 且 只 有 那些 受 威胁 的 变量 才 需 要 在 过 程 返 回 时 重新 装 入 。 

高 德 纳 对 典型 的 (FORTRAN 语言 ) 程序 中 的 表达 式 复 杂 性 问题 进行 了 一 些 研究 ， 发 现 大 
多 数 赋值 语句 仅 涉 及 一 个 或 更 少 的 运算 符 ， 并 且 其 中 有 一 半 只 是 将 一 个 值 复制 给 一 个 变量 
[Knuth，1971]。 另 一 些 研 究 表明 ， 表 达 式 求 值 几乎 都 不 会 复杂 到 需要 5 个 寄存 器 存放 中 间 结 果 
的 程度 。 将 这 一 结论 铭记 在 心 后 ， 许 多 编译 程序 设计 人 员 仅 允许 4 个 寄存 器 用 于 表达 式 求 值 ， 
然后 在 遇 到 一 个 不 常见 的 复杂 表达 式 时 , 令 一 个 寄存 器 强制 溢出 ; 或 者 编译 程序 直接 放弃 编译 ， 
并 要 求 程 序 员 简化 该 表达 式 。 我 们 的 需求 分 配 算法 对 表达 式 求 值 没有 强加 任何 固定 的 限制 〈 除 
了 硬件 寄存 器 的 数目 )， 根 据 上 下 文 的 需要 将 中 间 结 果 值 或 寄存 器 变量 溢出 到 内 存 中 。 

已 知 实际 应 用 通常 将 固定 数目 的 数据 寄存 器 分 配给 表达 式 求 值 ， 故 有 两 种 不 同 的 方法 处 理 
剩 下 的 寄存 器 。 表 达 式 求 值 寄存 器 往往 被 认为 是 易 变 的 (velatile)， 即 它们 的 值 在 整个 过 程 
调用 中 不 是 保持 不 变 的 。 一 个 给 定 的 编译 程序 可 遵循 惯例 , 约定 其 他 寄存 器 也 是 易 变 的 ; 或 也 可 
遵循 另 一 更 常见 的 惯例 , 约定 寄存 器 的 某 一 固定 子 集 不 是 易 变 的 , 这 一 惯例 要 求 一 个 过 程 保存 并 
恢复 该 过 程 用 到 的 所 有 非 易 变 的 寄存 器 。 支 持 这 一 惯例 的 理由 是 基于 如 下 假设 : 在 活跃 表达 式 中 
很 少 出 现 过 程 调用 ， 而 寄存 器 变量 则 可 能 活跃 在 多 条 语句 中 ， 包 括 横 跨 过 程 调用 的 语句 。 在 某 些 
情况 下 , 操作 系统 调用 在 这 方面 被 看 作 是 过 程 调用 , 且 不 保存 易 变 的 寄存 器 ; 而 在 另 一 些 情况 下 ， 
系统 调用 还 保存 大 多 数 易 变 的 寄存 器 〈 除 了 那些 显 式 地 返回 一 个 值 的 调用 )。 通 常 ， 这 些 惯例 是 
由 该 系统 的 第 一 批 编译 程序 编写 人 员 确 立 的 ， 后 来 发 展 的 编译 程序 往往 会 遵循 这 些 惯 例 。 
9.3.2 ”表达 式 中 的 寄存 器 分 配 

一 个 简单 的 “一 遍 ” 编 译 程序 即使 不 带 数据 流 分 析 ,， 也 可 为 多 寄存 器 机 器 生成 合理 的 代码 ， 
其 方法 是 在 寄存 器 中 模拟 表达 式 栈 。 单 个 流动 的 属性 可 携带 一 个 索引 ， 表 示 基 于 寄存 器 的 栈 中 
值 的 数目 ， 并 且 寄 存 器 被 排序 ， 从 而 压 入 的 第 一 个 值 总 是 存 入 《例如 ) 寄存 器 0， 第 二 个 值 存 
入 寄存 器 1， 如 此 类 推 。 如 果 计 算 机 支持 寄存 器 到 寄存 器 的 算术 运算 ， 即 可 直接 生成 不 那么 高 
效 的 零 地 址 代码 ， 如 代码 清单 9.3 所 示 。 尽 管 该 例子 展示 了 零 地 址 代码 如 何 直 接 转 换 为 一 种 虚 
构 的 寄存 器 机 器 代码 ， 代 码 生成 程序 也 可 生成 单 地 址 代码 ， 这 将 消除 间接 寄存 器 的 装 入 和 存储 
指令 ， 用 直接 的 装 入 和 存储 指令 取代 它们 以 及 它们 相应 的 地 址 装 入 指令 ， 有 具体 细节 留 作 练习 。 


代码 清单 9.3 ”在 寄存 器 中 模拟 一 个 零 地 址 栈 
待 编 译 的 语句 : a := (a +b) * (c- 3) 


TBSM【〈 零 地 址 ) 代码 ; 寄存 器 机 器 代码 : 

LDC A LDA 0, A HA A 的 地 址 
LDC A LDA 1, A 装 入 A 的 地 址 
LD LD 1, e1 装 入 A 

LDC B LDA 2, B 装 入 B 的 地 址 
LD LD 2, @2 装 入 B 

ADD ADD 1, 2 ri + r2 > r1 
LDC C LDA 2, C 装 入 c 的 地 址 
LD LD 2, 82 AC 

LDC 3 LD 3, #3 装 入 常量 值 3 
SUB SUB 2, 3 r2- r3 > r2 
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MPY MUL 1, 2 ri * r2 > ri 
ST ST 1, G0 存储 到 入 
1BSM 代码 Bud 生成 的 代码 
室 栈 

(1) LDC a (无 代码 ) 
(2) LDC a (无 代码 ) 
(3) LD ERE) 
(4) LDC b CERE) 
(5) LD (ARE) 
(6) ADD LD 0, a 
(7) ADD ADD 0, b 
(8) LDC c (无 代码 ) 
(9) LD (无 代码 ) 
(10) LDC 3 (无 代码 ) 
(11) SUB LD 1, C 
(12) SUB SUB 1, #3 
(13) MPY MUL 0, 1 
(14) ST ST 0, a 





图 9-2 ”编译 时 的 虚拟 栈 〈 斜 体 IBSM 运算 符 表示 延续 上 一 步 的 操作 ) 
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图 9-2 展示 了 一 个 结构 更 强 的 栈 属性 ， 在 编译 时 ， 该 虚拟 栈 中 每 一 单元 表示 这 一 个 值 在 运 
行 时 的 物理 位 置 。 代 码 生成 程序 将 变 得 稍微 复杂 一 些 ， 这 是 因为 我 们 在 编译 时 的 栈 中 模拟 代码 
的 执行 ， 而 不 是 像 先 前 那样 直接 生成 装 入 一 个 寄存 器 值 的 代码 。 仅 当 虚 拟 栈 的 信息 变 得 太 复杂 
时 ， 或 仅 当 结 果 要 存 回 目标 变量 时 ， 才 会 生成 真正 的 代码 。 跟 踪 图 9-2 的 步骤 序列 ， 有 助 于 理 
解 在 编译 一 条 赋值 语句 a := (a + b) * (c - 3) 时 是 如 何 工作 的 。 

第 1 步 从 一 个 空 的 虚拟 栈 开 始 ， 本 应 由 编译 程序 早期 版 本 产生 的 Itty Bitty 栈 机 器 代码 ,此 
时 仅 导 致 一 个 单词 “a 的 地 址 ”被 压 入 编译 时 的 ) 虚拟 栈 中 ， 而 不 产生 任何 寄存 器 代码 。 第 
2 步 重复 这 一 过 程 ， 第 3 步 识 别 BSM 指令 LD 后 ， 用 单词 “a 的 值 ”取代 虚拟 栈 的 栈 顶 元 素 ， 
仍 不 产生 任何 代码 。 接 下 来 的 两 步 在 处 理 变量 b 时 重复 了 这 一 过 程 。 

第 6 步 要 求 模拟 执行 的 计算 机 将 栈 顶 的 两 个 元 素 求 和 ， 但 这 却 无 法 表示 在 虚拟 栈 中 ， 更 何 
况 该 计算 机 也 不 可 能 不 将 其 中 一 个 变量 放 入 寄存 器 就 实现 两 个 内 存 中 的 值 求 和 。 因 而 ， 此 时 将 
产生 寄存 器 代码 ， 从 内 存 中 装 入 到 寄存 器 0; 第 7 步 则 再 次 考虑 IBSM 指令 RDD， 产 生 从 内 存 
到 寄存 器 的 ADD 指令 。 更 新 后 的 虚拟 栈 表 明 栈 顶 元 素 是 存放 在 寄存 器 0 中 的 值 。 

第 8 一 12 步 重 复 相同 的 过 程 处 理 第 二 个 子 表 达 式 (b - 3)。 注 意 ， 常 量 值 显 式 地 表示 在 虚 
拟 栈 中 。 如 果 编 译 程序 先前 未 执行 常量 折 倒 变换 ， 此 处 也 可 能 实现 一 些 常量 折 鸽 ， 因 为 代码 生 
成 程序 可 检测 到 为 虚拟 栈 中 两 个 常量 的 算术 运算 生成 代码 的 意图 ， 此 时 直接 以 一 个 适当 的 常量 
单词 取代 栈 顶 元 素 即 可 ， 而 不 必 生 成 任何 代码 。 

最 后 两 步 继 续 模拟 过 程 ， 分 别 生成 适当 的 寄存 器 代码 。 容 易 看 出 生成 的 目标 机 器 代码 往往 
都 非常 好 ， 并 且 在 许多 情况 下 还 是 最 优 的 《正如 本 例 所 示 )。 

基于 模拟 执行 生成 寄存 器 代码 的 关键 数据 结构 是 虚拟 栈 ， 其 实现 既 可 以 是 一 个 由 单元 组 成 
的 链表 ， 也 可 以 是 一 个 由 单元 组 成 的 数组 。 每 一 单元 是 一 个 记录 ， 其 中 有 一 个 标记 字段 表示 所 
包含 数据 的 类 别 〈 变 量 地 址 、 值 、 常 量 或 寄存 器 )， 还 有 一 个 变 体 表示 变量 引用 的 数目 或 地 址 、 
常量 值 、 或 寄存 器 数目 。 由 于 并 非 所 有 栈 单元 的 值 都 会 表示 在 一 个 寄存 器 中 〈 注 意图 9-2 中 的 
栈 最 多 伸展 到 4 个 单元 ， 但 只 需要 2 个 寄存 器 )， 所 以 有 必要 携带 一 个 可 用 寄存 器 的 集合 ， 在 
有 需要 时 从 中 挑选 一 个 使 用 。 

如 果 需 要 一 个 新 的 寄存 器 时 ， 可 用 寄存 器 集合 为 空 ， 则 某 一 个 在 用 的 寄存 器 必须 溢出 到 内 
存 中 。 若 不 借助 向 后 数据 流 分 析 为 选择 寄存 器 提供 信息 ， 一 个 最 明显 的 选择 就 是 虚拟 栈 中 最 深 
层 的 那个 寄存 器 ， 因 为 该 寄存 器 中 的 值 离 再 次 被 请 求 使 用 的 时 间 最 长 。 当 该 寄存 器 溢出 到 内 存 
时 ， 它 在 虚拟 栈 中 的 单元 被 一 个 指向 存放 它 的 临时 内 存 变 量 的 值 引用 所 替代 ， 同 时 生成 一 条 存 
储 指 令 。 如 果 该 栈 单元 再 次 到 达 栈 顶 ， 算 法 将 自动 地 重新 装 入 《或 在 一 条 算术 运算 指令 中 直接 
引用 内 存 )。 

代码 清单 9.4 展示 了 一 个 模块 的 实现 ， 它 根据 作为 参数 传递 的 IBSM 运算 符 生成 寄存 器 代 
码 。 这 些 代 码 并 不 是 在 所 有 基于 寄存 器 的 体系 结构 中 都 可 完美 地 工作 ， 但 采用 表 9-1 列 出 的 常 
量 ， 它 确实 可 以 为 四 种 流行 的 计算 机 生成 令 人 满意 的 《尽管 并 不 总 是 最 优 的 ) 代码 。 数 据 表 的 
数值 码 可 参阅 附录 D。 


代码 清单 9.4 ”一 个 根据 BSM 生成 基于 寄存 器 的 代码 的 模块 


MODULE CodeConstants; 
(* 用 于 一 个 将 TBSM 转换 为 处 理 通用 寄存 器 CPU 的 翻译 程序 *) 
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EXPORT 
GenericOpcode, (* 操作 码 的 枚 举 列表 *) 
AddressMode; (* 寻 址 模式 的 枚 举 列表 *) 
TYPE 
AddressMode - ( 
non, (* 无 寻 址 或 与 寻 址 无 关 *) 
con, (* 直接 常量 *) 
mem, (* 内 存 引 用 *) 
ind, (* 害 存 器 间接 寻 址 *) 
reg, (* 寄存 器 中 的 值 *) 
ccc (* 比较 的 结果 *) 
): 
GenericOpcode - ( 
Nop, Load, Store, . (* 内 存 与 寄存 器 之 间 的 交换 *) 
Cmpr, Add, Subt, Mlpy, Neg, (* 算术 运算 和 比较 运算 *) 
Andd, Orr, Jump, Bcc, BackP (* 条 件 、 分 支 和 逻辑 运算 *) 


): 
END CodeConstants; 


MODULE TargetMachine; 


(* 定义 了 一 个 特定 CPU 的 数据 表 *) 


FROM CodeConstants IMPORT 


GenericOpcode, (* 操作 码 的 枚 举 列表 *) 
AddressMode; (* 寻 址 模式 的 枚 举 列 表 *) 

EXPORT 
CPU, (* 一 个 表示 目标 处 理 器 的 通用 数字 *) 
BigEndian, (* 内 存 字 节 的 含义 ，true 表示 最 高 有 效 位 在 最 前 * ) 
RelBranch, HalfAdd, (* 分 支 选 项 ，true 表示 关系 或 移 位 运算 *) 
HasImmMode, (* true A&mPHECH ER SHER *) 
WeirdMulti, (* 在 多 种 不 同 的 乘法 实现 中 选择 一 种 *) 
Register， (* 一 个 包含 所 有 寄存 器 的 整数 子 界 *) 
LoReg，HiReg， (* 可 用 寄存 器 编号 的 范围 * ) 
AdReg, (* 用 于 内 存 寻 址 的 寄存 器 ， 若 都 可 用 则 等 于 LoReg *) 
ConditionCodes, (* 测试 比较 结果 的 6 个 编码 *) 

( 


OpCodeIndex, OpCodeTable; * 某 一 特定 CPU 的 数据 表 *) 


CONST 
(* 表 中 的 值 请 参阅 表 9-1 和 附录 D *) 


TYPE 
Register = [0 .. TopReg]; 
TableRange - [0 .. EndTable]; 

VAR (* 这 些 实际 上 是 常量 表 ， 而 不 是 变量 *) 
ConditionCodes: ARRAY [0 .. 5] OF CARDINAL; 


C 每 一 入 口 测试 一 种 比较 的 结果 : <=, <, =, <>, >=, > *) 
OpCodeIndex: ARRAY GenericOpcode, AddressMode OF TableRange; 
(* 每 一 入 口 指向 OpCodeTable 中 一 个 序列 的 起 始 位 置 *) 
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UR UE ARRAY TableRange OF [0 .. 255]; 
* 每 一 操作 码 由 如 下 6 个 以 上 的 字 节 的 序列 组 成 
TotalBytes 该 指令 的 字 节 数 
RegByte - ”一 个 寄存 器 编号 的 字 节 位 置 ， 或 比较 结果 
RegPosn 一 用 于 定位 它 的 乘 数 
AddByte - ”地 址 的 首 字 节 ， 或 第 2 个 寄存 器 ， 或 比较 结果 
NumAddBytes - ”地 址 的 字 节 数 ， 或 寄存 器 、 比 较 结果 的 位 置 
NumOpBytes - ” 跟 在 后 面 的 操作 码 的 字 节 数 
opbytes ... 一 操作 码 的 字 节 
*) 
BEGIN 


(* 以 某 种 方式 装 入 数据 表 * 
END TargetMachine; 
(* 输出 过 程 *) 


MODULE TargetGenerator; 


(* 基于 表格 解释 的 内 存 中 代码 生成 程序 *) 


FROM TargetMachine IMPORT 


BigEndian, (* 内 存 字 节 的 含义 ，true 表示 最 高 有 效 位 在 最 前 * 
Register， (* 一 个 包含 所 有 寄存 器 的 整数 子 界 *) 
OpCodeIndex, OpCodeTable; (* 荣 一 特定 CPU 的 数据 表 * 
FROM CodeConstants IMPORT 
GenericOpcode, (* 操作 码 的 枚 举 列表 *) 
AddressMode; (* 寻 址 模式 的 枚 举 列表 * 
FROM SomeWhere IMPORT 
maxCode; (* 支持 生成 的 目标 代码 的 最 大 空间 * 
EXPORT 
EmitTarget; (* 输出 一 条 目标 机 器 指令 *) 
VAR 
ObjectCode: ARRAY [0 .. maxCode] OF [0 .. 255]; 


PROCEDURE EmitTarget(theOp: GenericOpcode; aMode: AddressMode; regNum, 
opAddress: INTEGER; Location: CARDINAL; VAR NextLoc: CARDINAL); 
VAR 
index, opdata, temp, opAdd: CARDINAL; 
regNo: Register; 


BEGIN 

IF theOp - BackP THEN (* 回填 一 个 分 支 * 
NextLoc := Location; 
opdata := OpCodeIndex[Bcc, mem] + 6; 
Location := NextLoc - OpCodeTable[opdata] 

ELSE (5 普通 指令 的 代码 *) 
opdata := OpCodeIndex[theOp, aMode]; 
NextLoc := Location + OpCodeTablel[opdata]; 


temp := OpCodeTable[opdata + 5]; 
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FOR index := Location + temp TO NextLoc - 1 DO 
ObjectCode[index] := 0 (* 清除 未 指定 的 字 节 +) 

END; 

opdata := opdata + 6; 

FOR index :- 0 TO temp - 1 DO (* 播 入 操作 码 的 字 节 *) 
ObjectCode[Location + index] := OpCodeTable[opdata + index] 

END; 

IF aMode » non THEN (* 插入 寄存 器 引用 *) 
regNo := regNum; 
index :- OpCodeTable[opdata - 5]; 


temp :- regNo * OpCodeTable[opdata - 4]; 
ObjectCode[Location + index] := ObjectCode [Location + index] + temp MOD 256; 
IF temp > 255 THEN 
IF BigEndian THEN 
ObjectCode [Location + index - 1] 


ObjectCode[Location + index - 1] 


+ temp DIV 256 
ELSE 


ObjectCode[Location + index + 1] 


Ir 


ObjectCode[Location + index + 1] 


+ temp DIV 256 
END 


END 
END (* IF aMode » non *) 
END; (* IF theOp - BackP *) 


IF (aMode - mem) OR (aMode - con) THEN (* 插入 地 址 *) 
temp := Location + OpCodeTable[opdata - 3] - 1; 
IF BigEndian THEN 
FOR index :- OpCodeTable[opdata - 2] TO 1 BY -1 DO 
opAdd := opAddress MOD 256; 
ObjectCode[temp + index] := ObjectCode[temp + index] 4 opAdd; 
opAddress := opAddress DIV 256 
END 
ELSE 
FOR index := 1 TO OpCodeTable[opdata - 2] DO 
OpAdd := opAddress MOD 256; 
ObjectCode[temp + index] := ObjectCode[temp + index] + opAdd; 
opAddress := opAddress DIV 256 
END 
END (* IF BigEndian *) 
ELSIF (aMode = reg) OR (aMode = ind) THEN (* 插入 第 二 个 寄存 器 «) 
regNo :- opAddress; 


index :- OpCodeTable[opdata - 3]; 
ObjectCode [Location « index] := ObjectCode[Location + index] + regNo * OpCodeTable 


[opdata — 2] 
END (* IF (aMode - mem) OR (aMode - con) *) 
END EmitTarget; 


END TargetGenerator; 


(* 输出 过 程 *) 


MODULE CodeGenerator; 
(* 一 个 将 IBSM 转换 为 通用 寄存 器 CPU 的 翻译 程序 *) 
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FROM TargetMachine IMPORT 


RelBranch, HalfAdd, (* 分 支 选项 ， true 表示 关系 或 移 位 运算 *) 
HasImmMode, (* true ERARE EE FH *) 
WeirdMulti, (* 在 多 种 不 同 的 乘法 实现 中 选择 一 种 *) 
Register, (* 一 个 包含 所 有 寄存 器 的 整数 子 界 * ) 
LoReg, HiReg, e 可 用 寄存 器 编号 的 范围 *) 
AdReg, (* 用 于 内 存 寻 址 的 寄存 器 ; 若 都 可 用 则 等 于 LoReg *) 
ConditionCodes; (* 测试 比较 结果 的 6 个 编码 *) 

FROM TargetGenerator IMPORT 
EmitTarget; (* 输出 一 条 目标 机 器 指令 *) 

FROM CodeConstants IMPORT 
GenericOpcode, (* 操作 码 的 枚 举 列表 *) 
AddressMode; (* 寻 址 模式 的 枚 举 列表 *) 

FROM SomeWhere IMPORT 
AllocTempVar, ReleaseTempVars, (* 临时 变量 的 分 配 *) 
Deepest; (* 虚拟 栈 的 最 大 深度 *) 

EXPORT 


EmitIBSM, BackPatch; 


(* 局 部 定义 *) 

TYPE 
regset - SET OF Register; 
stackrange - [0 .. Deepest]: 


stackCell = RECORD 
itsType: AddressMode; 
isNegative: BOOLEAN; 
itsValue: INTEGER 


END; 

VAR 
queuedOpcode: CARDINAL; (* 先前 的 调用 留 下 待 回 填 的 LDc 操作 码 *) 
busyRegisters: regset; (* 当前 正在 使 用 的 寄存 器 *) 


virtualStack: ARRAY stackrange OF stackCell; 
topStack: stackrange; 
CurrentLoc, hotcc: CARDINAL; 


(* 作为 工具 使 用 的 过 程 *) 


PROCEDURE PushVirtual (kind: AddressMode; datum: INTEGER); 
BEGIN 
INC (topStack); 
WITH virtualStack[topStack] DO 
itsType :- kind; 


itsValue :- datum; 
isNegative := FALSE 
END 


END PushVirtual; 
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PROCEDURE PopVirtual(): INTEGER; 
BEGIN 

DEC (topStack) ; . 

RETURN virtualStack[topStack + 1].itsValue 
END PopVirtual; 


PROCEDURE StoreRegister(theReg: Register; theAddress: INTEGER); 
VAR 7 
temp: INTEGER; 
BEGIN 
EmitTarget(Store, mem, theReg, theAddress, CurrentLoc, CurrentLoc) 
END StoreRegister; 


PROCEDURE SpillRegister(theReg: INTEGER); 
VAR 

temp: INTEGER; 

here: stackrange; 

gotit: BOOLEAN; 


BEGIN 
gotit :- FALSE; 
FOR here :- 1 TO topStack DO 


WITH virtualStack[here] DO 
IF (itsType - reg) AND (itsValue - theReg) THEN 
IF NOT gotit THEN 


temp :- AllocTempVar(); (* 将 该 寄存 器 溢出 到 内 存 *) 
EmitTarget(Store, mem, theReg, temp, CurrentLoc, CurrentLoc); 
gotit := TRUE 

END; 

itsType :- mem; 

itsValue temp 


END (* IF *) 

END (* WITH *) 
END (* FOR *) 

END SpillRegister; 


PROCEDURE CantUseIt(Taken, Weird: BOOLEAN; theReg: Register): BOOLEAN; 
BEGIN 
RETURN Taken 
OR Weird AND (WeirdMulti 2) AND NOT ODD(theReg) 
“OR Weird AND (WeirdMulti = 3) AND (theReg > LoReg) 
END CantUseIt; 


H 


PROCEDURE GetRegister (Weird: BOOLEAN): Register; 
VAR 

areg: Register; 

hear, there: stackrange; 


usage: ARRAY [LoReg .. HiReg] OF CARDINAL; 
BEGIN (* 获取 一 个 寄存 器 *) 
areg := LoReg; (* 尝试 找 一 个 未 用 的 寄存 器 8) 
WHILE (areg < HiReg) AND CantUseIt(areg IN busyRegisters, Weird, areg) DO 
INC (areg) 
END; 


IF NOT (areg IN busyRegisters) THEN 
INCL (busyRegisters, areg); 
RETURN areg 


TOS AE E EM 


END; 
FOR hear :- 1 TO topStack DO 
WITH virtualStack[hear] DO 
IF itsType - reg THEN 
areg :- itsValue; 
IF NOT CantUseIt(FALSE, Weird, areg) 
SpillRegister (areg); 
RETURN areg 
END 
END (* IF *) 
END (* WITH *) 
END (* FOR *) 
END GetRegister; 
PROCEDURE LoadThis(which: stackrange; 
VAR 
areg: Register; 
BEGIN 
WITH virtualStack[which] DO 
IF 
areg :- GetRegister(prefereg); 
EmitTarget(Load, itsType, areg, 
itsType :- reg; 
itsValue :- areg 
END 
END 
END LoadThis; 


PROCEDURE Flushcc; 
BEGIN 
IF hotcc » 0 THEN 
LoadThis (hotcc, 
END; 
hotcc := 0 
END Flushcc; 


FALSE) 


(itsType <> reg) OR CantUseIt (FALSE, prefereg, 


itsValue, 
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(* 在 栈 中 寻找 任 一 寄存 器 *) 


THEN 


(* 将 该 寄存 器 溢出 到 内 存 *) 


prefereg: BOOLEAN); 


itsValue) THEN 


CurrentLoc, CurrentLoc); 


(* 将 不 是 立即 使 用 的 比较 结果 保存 起 来 *) 


(* 如 果 交 换 则 返回 true *) 


(* 车 栈 顶 是 寄存 器 且 其 下 元 素 不 是 ， 则 不 交换 *) 


PROCEDURE SwapMaybe(always: BOOLEAN): BOOLEAN; 
VAR 
tempCell: stackCell; 
BEGIN 
IF NOT always THEN 
IF (virtualStack[topStack - 1].itsType «» reg) 


AND (virtualStack[topStack].itsType - 
RETURN FALSE 

ELSIF 

OR (virtualStack[topStack].itsType - 


reg) THEN 


(virtualStack[topStack - 1].itsType <> reg) 
reg) 


THEN 


IF virtualStack[topStack - 1].isNegative 
OR NOT virtualStack[topStack].isNegative THEN 


RETURN FALSE 
END 
END 
END; 
tempCell :- 
virtualStack[topStack] 
virtualStack[topStack - 1] :- 


virtualStack[topStack]; 


tempCell; 


virtualStack[topStack - 1]; 
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RETURN TRUE 
END SwapMaybe; 





PROCEDURE DoOpcode(theOp: GenericOpcode); 
VAR 
areg: Register; 
wasNeg: BOOLEAN; 
BEGIN 
Flushcc; 
IF SwapMaybe(FALSE) THEN END; 
LoadThis(topStack, (theOP - Mlpy) AND (WeirdMulti » 1)); 
wasNeg : - virtualStack[topStack].isNegative; 
areg :- PopVirtual(); 
WITH virtualStack[topStack] DO 
IF theOp - Add THEN 
IF wasNeg «» isNegative THEN 
theOp :- Subt 


END 
ELSIF theOp - Mlpy THEN 
wasNeg := wasNeg <> isNegative; 
IF (WeirdMulti - 3) AND ((itsType «» reg) OR (itsValue «» HiReg)) THEN 
SpillRegister (HiReg) (* 86 型 CPU 的 寄存 器 是 一 种 特殊 情况 *) 
END 


END; 
EmitTarget(theOp, itsType, areg, itsValue, CurrentLoc, CurrentLoc); 
isNegative :- wasNeg; 
itsType :- reg; 
itsValue :- areg 
END 
END DoOpcode; 


PROCEDURE Compare(ccResult: CARDINAL); 
VAR 
areg: Register; 
wasNeg: BOOLEAN; 
BEGIN 
Flushcc; 
IF NOT SwapMaybe(virtualStack[topStack - 1].isNegative 
AND NOT virtualStack[topStack].isNegative) THEN 


ccResult := 5 - ccResult 
END; 
LoadThis(topStack, FALSE); 
wasNeg :- virtualStack[topStack].isNegative; 
areg := PopVirtual(); 
WITH virtualStack[topStack] DO 
IF wasNeg «» isNegative THEN (* 符号 必须 相同 *) 
EmitTarget(Neg, reg, areg, 0, CurrentLoc, CurrentLoc) 
END; 
EmitTarget(Cmpr, itsType, areg, itsValue, CurrentLoc, CurrentLoc); 
isNegative :- FALSE; 
itsType :- ccc; 
IF wasNeg AND (ccResult DIV 2.«» 1) THEN 
itsValue := (ccResult + 4) MOD 8 (* 为 负数 则 反 向 比较 *) 
ELSE 


itsValue := ccResult 


RAGA GEN 


END 
END 
END Compare; 


PROCEDURE DoLoad(); 
VAR 
offset, cond: INTEGER; 
areg: Register; 
theOp: GenericOpcode; 
BEGIN 
WITH virtualStack[topStack] DO 
IF itsType con THEN 
itsType mem 
ELSE 
LoadThis(topStack, FALSE); 
areg PopVirtual(); 
IF virtualStack[topStack + 1].isNegative 
EmitTarget(Neg, reg, areg, 0, 
END; 
EmitTarget (Load, 
END 
END 
END DoLoad; 


ind, areg, areg, 


PROCEDURE DoBranch(); 
VAR 
offset, aLoc, cond: INTEGER; 
theOp: GenericOpcode; 
BEGIN 
offset PopVirtual(); 
IF virtualStack[topStack].itsType 
IF PopVirtual() 0 THEN 
theOp Jump 
ELSE 
RETURN 
END 
ELSE 
theOp 


con THEN 


Bcc; 


CurrentLoc, 


CurrentLoc, 
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THEN 
CurrentLoc) 


CurrentLoc) 


(* 总 是 产生 长 地 址 *) 


(* 无 条 件 跳 转 *) 
(* 无 分 支 *) 


IF virtualStack[topStack].itsType «» ccc THEN 


LoadThis(topStack, FALSE); 


PushVirtual(con, 0); 
Compare (3) 

END; 

cond := PopVirtual() 

END; 

IF NOT RelBranch THEN 
aLoc :- CurrentLoc; 
offset := offset + aLoc 

END; 

IF HalfAdd THEN 
offset :- offset DIV 2 

END; 


EmitTarget(theOp, mem, cond, offset, 


END DoBranch; 


CurrentLoc, 


(* 比较 栈 顶 是 否 不 等 于 0 *) 


CurrentLoc) 
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PROCEDURE EmitIBSM(datum: INTEGER; inAddress: CARDINAL; VAR outAddress: CARDINAL); 
VAR 
areg: Register; 


BEGIN 
CurrentLoc :- inAddress; 
IF queuedOpcode - 0 THEN 
queuedOpcode :- datum 
ELSE 


PushVirtual(con, datum); 
queuedOpcode :- queuedOpcode DIV 32 
END; 
WHILE (queuedOpcode > 0) AND (queuedOpcode MOD 32 <> 28) DO 
CASE queuedOpcode MOD 32 OF 
1: 
DoBranch() | 
8: 
WITH virtualStack[topStack] DO 
PushVirtual(itsType, itsValue) 
END | 
9: (* SWAP 指令 *) 
IF SwapMaybe (TRUE) THEN 
END | 
11: (* MPY 指令 *) 
DoOpcode (Mlpy) 
12: (* ADD 指令 *) 
DoOpcode(Add) | . 
14: (* OR 指令 *) 
DoOpcode (Orr) 
15: (* AND 指令 *) 
DoOpcode (Andd) 
16: (* EQUAL 指令 *) 
Compare(2) | 
17: (* LESS 指令 *) 
Compare(1) | 
18: (* GRTR 指令 *) 
Compare(5) | 
20: (* NEG 指令 +) 
WITH virtualStack[topStack] DO 
isNegative :- NOT isNegative 
END | 
26: (* ST 指令 *) 
Flushcc; 
LoadThis(topStack, FALSE); 
areg :- PopVirtual(); 
WITH virtualStack[topStack] DO 
EmitTarget(Store, mem, areg, itsValue, CurrentLoc, CurrentLoc) 


(* DUPE 指令 *) 


END | 

27: (* LD 指令 *) 
DoLoad() | 

29: (* NIBL 指令 *) 


queuedOpcode := queuedOpcode DIV 32; 
PushVirtual(con, queuedOpcode MOD 32) 
30, 31: 
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PushVirtual(con, queuedOpcode MOD 2) 
END; (* CASE *) 
queuedOpcode :- queuedOpcode DIV 32 
END; (* WHILE *) 
outAddress :- CurrentLoc 
END EmitIBSM; 


PROCEDURE BackPatch(offset: INTEGER; inAddress: CARDINAL); 


VAR 
.aLoc, cond: INTEGER; 
BEGIN 
IF NOT RelBranch THEN 
aLoc :- inAddress « offset 
ELSE 
aLoc :- offset 
END; 
IF HalfAdd THEN 
aLoc := aLoc DIV 2 
END; 


EmitTarget(BackP, mem, 0, aLoc, inAddress, inAddress) 
END BackPatch; 


BEGIN (* CodeGenerator 初始 化 代码 *) 
topStack :- 0; 
busyRegisters := regset{}; 
queuedOpcode :- 0; 
hotce := 0 
END CodeGenerator; 


表 9-1 一 些 常见 计算 机 型 号 的 目标 机 器 常量 


CONST CPU | - [ a | 上 | 370 [| sso; 
BigEndian | - | ras; | rase | TRUE, | TRUE; 
HasImWode | =- | mu | moe, | rarse | TRUE; 
RelBranch | - | mue | TRE; | a — | TRUE; 
HalfAdd | - | mm | rase; | rase: | FALSE; 
WeirdMulti -一 NC RCM 1; 
LoReg | -| oo |] oo | oo | 9; 
HiReg Do 4 | 3 | | 7i 
TopReg |o | m |] m ] 3 | 15; 
AdReg | o- | o» ] a ] o | 0; 
Franeptrreg | = | 5; | 6 | is | 14; 
EndTable Lom po e 236; 

2 4 6. 5, 13, 45; 7, tt. 2. 6, 12, 14 


根据 IBSM 的 定义 ， 而 不 是 图 9-2 所 示 的 逻辑 ，Modula-2 语言 的 代码 在 一 个 变量 被 取出 或 
存 入 之 前 ， 并 不 区 别 局 部 变量 地 址 和 常量 。 这 些 代码 令 人 想起 在 一 个 基于 TAG 的 代码 生成 程 
序 中 的 语义 动作 例 程 ， 或 者 是 作为 代码 生成 时 调用 的 子 例 程 合 并 到 一 个 手工 编写 的 编译 程序 
中 。 代 码 清 单 9.5 的 TAG 片段 展示 了 这 些 语 义 动 作 例 程 可 能 是 如 何 被 使 用 的 。 注 意 ， 该 文法 尽 
可 能 地 遵循 了 Itty Bitty 栈 机 器 的 形式 化 定义 ， 并 由 代码 生成 程序 将 它 转换 为 合适 的 寄存 器 代 
码 。 一 个 投入 生产 用 的 编译 程序 一 般 会 定义 比 BSM 更 好 的 中 间 伪 码 。 
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学 
OC 
代码 清单 9.5 ”在 一 个 树 平展 文法 中 使 用 寄存 器 生成 代码 


Flatten linAddr:int Toutaddr:int 


一 >》 


«IF expn left rite» 
expn:Flatten Jinaddr TexAddr 
[EmitIBSM 128 lexaddr TconAddr] 
[EmitIBSM 40 lconaddr Tbrfaddr] 
[EmitIBSM 41 Jbrfadar ToreaAddr] 
left:Flatten lpreAddr TmidAddr 
[EmitIBSM 430 Jmidaddr TzerAddr] 
[EmitIBSM 428 lzerAdádr Tkonaddr] 
[EmitIBSM lO Jkonaddr Tbraddr] 
[EmitIBSM 41 lbraddr Tfinaddr] 
[BackPatch lfinAddr-preAddr lbrfAddr] 
rite:Flatten lfinAddr ToutAddr 
[BackPatch loutaddr-finAddr Vbraddr] 


<Assn theVar expn> 

expn:Flatten Jinaddr TmidAddr 

theVar:Flatten lmidAddr TpostAddr 
[EmitIBSM 19 Jpostaddr Tfinaddr] 
[EmitIBSM 426 lfinaddr Toutaddr] 


«Less left rite> 

left:Flatten linaddr Tmidaddr 

rite:Flatten JmidaAddr TpostAddr 
[EmitIBSM 417 lpostAddr Toutaddr] 


«Plus left rite» 

left:Flatten Jinaddr Tmidaddr 

rite:Flatten Jmidaddr Tpostaddr 
[EmitIBSM 412 lpostaddr Toutaddr] 


<Star left rite> 

left:Flatten linaddr TmidAddr 

rite:Flatten Jmidaddr TpostAddr 
[EmitIBSM 411 JpostAddr Toutaddr] 


<VAR>%offset 
[EmitIBSM 428 linaddr Tmidaddr] 
[EmitIBSM loffset l|midAddr Toutadar] 


«Fetch expn» 
expn:Flatten Jinaddr Tmidaddr 
[EmitIBSM 427 lmidAddr Toutaddr] 


<CON>%value 
[EmitIBSM 128 linaddr Tmidaddr] 
[EmitIBSM value lmidAddr ToutAddr] 


a 一 一 一 


一 一 一 


m 一 一 


m~ 一 一 


aN 


{ 
{ 


生成 代码 对 布尔 表达 式 求 值 } 
生成 LDC 指令 } 
准备 待 回 填 的 地 址 } 
生成 BRE 指令 } 
生成 左 子 树 的 代码 } 
生成 ZERO 指令 } 
生成 LDC 指令 ) 
准备 待 回填 的 地 址 } 
生成 BRF 指令 } 
回填 第 一 条 BRF 指令 } 
生成 右 子 树 的 代码 } 
回填 第 二 条 BRF 指令 ) 


生成 代码 对 表达 式 求 值 } 
访问 栈 中 变量 的 代码 } 
SWAP 指令 (无 代码 ) } 
生成 sT 指令 } 


生成 左 子 表达 式 的 代码 } 
生成 右 子 表达 式 的 代码 } 
生成 LESS 指令 } 


生成 左 子 表达 式 的 代码 } 
生成 右 子 表达 式 的 代码 } 
生成 ADD 指令 } 


生成 左 子 表 达 式 的 代码 } 
生成 右 子 表 达 式 的 代码 } 
生成 MPY 指令 } 


生成 LDC 指令 ， ) 
及 其 地 址 常量 } 


生成 地 址 表达 式 的 代码 ] 
生成 LD 指令 ) 


生成 LDC 指令 ， ) 
及 其 常量 } “ 


9.3.3 ”更 好 的 寡 存 器 分 配 数据 流 分 析 

如 前 所 述 ， 模 拟 执行 是 一 种 向 前 的 数据 流 分 析 形 式 ， 可 为 寄存 器 分 配 提供 信息 ， 使 得 寄存 
器 分 配 可 以 远 远 优 于 朴素 的 基于 寄存 器 的 栈 方 案 。 向 后 的 数据 流 分 析 可 找 出 应 保存 在 寄存 器 中 
的 候选 中 间 值 ， 从 而 进一步 减少 寄存 器 的 重新 装 入 。 第 8 章 介 绍 了 简单 的 活跃 变量 分 析 ， 它 可 
将 活跃 变量 集 一 路 附加 在 中 间 代 码 中 ， 从 而 在 生成 目标 机 器 代码 时 有 可 能 确定 任 一 计算 结果 值 
是 否 可 能 被 复 用 。 

如 果 每 一 变量 的 信息 根据 距离 度 基 此 “ 盾 龄 ”并 加 设 使 用 频率 ， 那 么 这 些 信息 会 变 得 更 加 
有 用 。 这 时 不 再 是 为 每 一 变量 传播 单个 位 (表示 变量 是 活跃 的 或 死 的 )， 而 是 携带 一 个 小 数字 
《可 能 是 [0 .. 256] 范 围 内 的 一 个 小 整数 ) 作为 “寄存 器 首选 值 >。 在 向 后 的 数据 流 分 析 中 ， 每 次 
引用 一 个 变量 都 导致 首选 值 递增 一 个 常量 ， 壁 如 8 或 16《〈 但 不 会 超过 最 大 值 )， 每 次 变量 不 再 
使 用 时 , 首选 值 递减 1 (但 不 会 小 于 1)。 在 每 条 语句 或 变量 引用 中 的 所 有 非 0 值 均 可 任意 递减 ， 
因为 被 引用 的 变量 导致 的 递增 将 多 于 递减 。 可 调整 增 量 值 和 递减 频率 的 选择 , 以 取得 最 佳 效 果 。 

这 些 信 息 将 附加 到 一 个 基本 块 的 中 间 代 码 树 上 ， 使 得 在 一 次 向 前 遍历 并 生成 代码 时 ， 每 当 
有 一 个 计算 得 到 的 结果 值 存储 到 一 个 指定 变量 或 从 该 变量 装 入 一 个 值 时 ， 如 果 该 变量 是 活跃 
的 ， 则 将 结果 也 保存 在 寄存 器 中 。 如 果 要 保存 的 值 多 于 可 用 的 寄存 器 ， 变 量 根 据 后 续 引 用 的 邻 
近 度 和 频率 划分 等 级 ， 以 决定 哪些 结果 将 溢出 到 内 存 中 。 

在 基本 块 的 边界 ,特别 是 两 个 基本 块 的 汇合 点 ， 这 种 过 于 简化 的 数据 流 分 析 遍 历 必 须 清除 
寄存 器 首选 值 的 集合 ， 因 为 另 一 执行 路 径 可 能 为 同一 变量 分 配 不 同 的 寄存 器 。 

将 活跃 变量 分 析 用 于 减少 寄存 器 的 装 入 和 存储 操作 时 ， 每 一 寄存 器 都 关联 着 一 个 变量 的 列 
表 ， 该 寄存 器 作为 这 些 变量 的 一 个 有 效 副 本 ， 每 一 寄存 器 还 关联 着 一 个 标志 ， 表 明 该 寄存 器 是 
内 存 的 复制 品 还 是 一 个 仅 有 的 副本 。 在 代码 生成 时 ， 一 个 存储 到 内 存 的 操作 的 模拟 执行 只 是 将 
目标 变量 添加 到 该 寄存 器 的 列表 中 (同时 将 它 标记 为 一 个 仅 有 的 副本 )， 并 将 该 变量 从 所 有 其 
他 寄存 器 的 列表 中 删除 ， 不 产生 任何 机 器 代码 。 一 个 装 入 操作 的 模拟 执行 则 查找 寄存 器 集合 ， 
从 中 找 出 一 个 在 其 列表 中 包含 该 变量 的 寄存 器 ; 仅 当 找 不 到 这 样 的 寄存 器 时 ， 才 分 配 一 个 新 的 
寄存 器 ， 并 真正 产生 一 条 装 入 指令 。 一 条 算术 运算 或 逻辑 运算 车 涉及 一 个 仅 有 副本 的 值 ， 并 且 
该 值 仍 是 活跃 的 ， 则 必须 为 该 运算 分 配 另 一 个 寄存 器 ,否则 要 先 存储 该 寄存 器 的 内 容 以 更 新 这 
些 变量 。 如 果 一 个 过 程 调 用 使 用 了 寄存 器 中 的 变量 ， 也 必须 强制 将 这 些 变量 的 值 溢出 。 

将 存储 操作 推迟 到 真正 需要 该 寄存 器 或 其 影子 变量 时 才 执 行 ， 往 往 可 将 存储 操作 全 部 消 
除 ， 例 如 变量 仅 有 的 活跃 引用 在 该 寄存 器 不 得 不 溢出 之 前 已 被 表达 式 使 用 。 尽 管 这 一 启发 式 方 
法 通常 并 不 能 证 明 是 最 优 的 〈 但 图 着 色 算 法 可 证 明 是 最 优 的 )， 但 可 证 明 它 不 会 差 于 不 带 向 前 
看 的 算法 〈 例 如 代码 清单 9.4)， 并 且 通 常 与 图 着 色 算 法 效果 一 样 好 ， 但 它 的 时 间 复 杂 度 只 是 线 
性 时 间 。 注 意 ， 即 使 不 借助 于 向 后 数据 流 分 析 确定 寄存 器 溢出 的 优先 级 ， 将 寄存 器 存储 推迟 到 
有 需要 时 才 执 行 仍 可 产生 明显 更 好 的 代码 。 

9.3.4 ”循环 的 寄存 器 分 配 

程序 中 的 循环 ， 特 别 是 小 的 内 循环 ， 是 寄存 器 优化 的 主要 候选 对 象 ， 因 为 这 里 最 容易 感觉 
到 消除 内 存 装 入 和 存储 操作 带 来 的 少许 速度 提高 。 所 有 活跃 变量 都 是 保存 到 寄存 器 中 的 候选 对 
象 ， 当 活跃 变量 多 于 寄存 器 时 ， 通 过 遍历 该 循环 而 计算 得 到 的 寄存 器 首选 值 特别 有 用 。 

持久 循环 变量 需要 进行 特殊 的 处 理 ， 因 为 一 个 基本 原则 是 : 循环 中 对 每 一 持久 循环 变量 的 
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最 后 赋值 都 应 让 该 变量 留 在 它 在 循环 入 口 处 驻 留 的 同一 寄存 器 中 。 类 似 地 ， 如 果 一 个 寄存 器 的 
信 在 整个 循环 过 程 中 都 活跃 〈 即 不 是 一 个 持久 循环 变量 )， 该 寄存 器 必须 溢出 以 供 更 高 级 别 的 
优先 级 使 用 , 并 且 该 值 必 须 重新 装 入 到 它 在 循环 入 口 处 驻 留 的 同一 寄存 器 中 。 一 种 更 简单 的 (也 
可 能 是 更 受 欢迎 的 ) 做 法 是 ， 避 免 将 在 循环 过 程 中 必须 溢出 和 重 装 的 变量 预先 装 入 任何 寄存 器 
中 ， 将 寄存 器 留 给 那些 在 整个 循环 执行 过 程 中 一 直 可 驻 留 的 变量 。 

向 后 数据 流 分 析 针对 持久 循环 变量 的 一 种 用 法 是 选择 一 个 目标 寄存 器 ， 然 后 用 指派 的 寄存 
器 标明 该 持久 循环 变量 的 最 终 计算 结果 ; 只 要 有 一 个 合适 的 公共 累加 器 ， 就 将 这 一 选择 结果 向 
后 传播 给 中 间 计 算 结果 。 然 后 不 再 采用 投机 的 寄存 器 分 配 策略 ， 而 是 由 寄存 器 分 配 程序 识别 预 
先 选 定 的 寄存 器 ， 并 在 各 个 候选 寄存 器 中 选择 它 。 向 后 数据 流 分 析 应 在 计算 之 前 ， 连 续 选 择 中 
闻 寄 存 器 的 值 ， 使 得 指派 的 寄存 器 在 需要 时 不 会 被 其 他 值 占 用 。 表 9-2 展示 了 一 个 例子 ， 描 述 
这 一 策略 是 如 何 工作 的 。 相 同 的 启发 式 方法 还 可 用 于 一 个 分 叉 的 汇合 点 上 寄存 器 变量 的 分 配 ， 
或 用 于 在 寄存 器 中 计算 传递 给 一 个 过 程 的 参数 。 


表 9-2 为 持久 循环 变量 预 分 配 寄存 器 .空心 数字 1~4 记载 了 向 后 数据 流 分 
析 的 决策 ， 实 心 数字 5~6 指明 在 基于 〈 向 前 ) 模拟 执行 的 代码 生成 
过 程 中 的 后 续 分 配 决策 ， 箭 头 展示 了 两 遍 过 程 的 寄存 器 分 配 信息 流动 


源 代码 分 配 决 策 数据 流 
agedsum := 0; agedsum 是 一 个 持久 循环 变量 。 仍 分 配 到 R4 
FOR i := 1 TO 10 DO LR—-THATRHER, 0483] n5. ft 






此 行 之 后 agedsum 不 再 活跃 , 因而 使 用 其 寄存 
器 计算 temp; WR temp 后 续 不 再 用 于 计算 
agedsum 的 下 一 个 值 ， 或 temp 自 那 以 后 仍 活 
跃 ， 寄 存 器 那 时 无 需 额外 开销 即 可 溢出 。 


a 
心 






u 
心 


Serpe cele g 
> > > >|> > >|> > > 










agedsum := temp + val[i] 


这 一 行 注销 了 agedsum， 但 保存 其 寄存 器 ; 不 
分 配 任何 寄存 器 给 用 于 计算 其 值 的 变量 temp. 


a 


在 代码 生成 时 ，temp 仍 在 寄存 器 中 ,并 且 可 立 
即 用 于 agedsum 的 计算 。temp 不 再 活跃 ， 因 
而 溢出 是 不 必要 的 。 


END, 数据 流 分 析 从 此 处 开始 。 SRAM | asa 
变量 ， 分 配 到 寄存 器 R5。 


9.3.5 FHERR 

具有 多 种 不 同 寻 址 模式 的 计算 机 给 编译 程序 带 来 的 问题 ， 通 常 不 同 于 我 们 在 寄存 器 分 配 中 
看 到 的 这 类 问题 ， 这 是 由 于 寄存 器 的 数目 通常 远 远 少 于 一 种 简短 的 寻 址 模式 可 访问 的 内 存 位 置 
数目 。 处 理 不 同 寻 址 模式 的 常见 方法 是 为 全 局 或 局 部 变量 随意 选择 自己 喜欢 的 地 址 空间 ， 然 后 
在 程序 的 数据 空间 超出 寻 址 模式 的 能 力 时 ， 退 回 到 没有 那么 紧凑 的 寻 址 模式 。 只 要 稍 作 分 析 ， 
编译 程序 即 可 计算 每 一 变量 的 引用 数目 〈 首 选 内 循环 ， 或 首选 由 程序 插 装 返回 的 统计 结果 )， 
然后 在 内 存 中 合理 分 布 变量 ， 以 减少 慢 速 访问 的 总 数 。 

一 些 计算 机 为 算术 运算 提供 了 寄存 器 到 内 存 、 也 可 能 还 有 内 存 到 内 存 的 寻 址 模式 ， 以 及 先 
前 我 们 已 考虑 过 的 内 存 到 寄存 器 模式 。 为 这 些 计算 机 生成 高 质量 的 代码 需 扩 展 虚 拟 栈 的 数据 结 
构 ， 以 容纳 那些 带 单个 运算 符 与 两 个 操作 数 的 表达 式 。 虚 拟 栈 的 两 个 顶部 元 素 不 含 运算 符 时 ， 
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temp := agedsum * 0.9; a 
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一 条 算术 运算 指令 的 模拟 执行 只 是 将 这 两 个 元 素 组 合 为 一 条 简单 的 表达 式 ， 如 图 9-3 的 赋值 语 
fla := b + a 例子 所 示 。 





IBSM 代码 虚拟 栈 生成 的 代码 
RR 
(1) LDC a Lampen [ | | (无 代码 ) 
(2) LDC b | ompen | — [| — | (无 代码 ) 
[a 的 地 址 ] | 
(3) LD | om& |  ]| — | 《无 代码 ) 
[a 的 地 址 |] 上 | 
(4) LDC a | a 的 地 址 | | | (无 代码 ) 
| bb 的 值 | | | 
aws [| 
(5) LD | af | | | (无 代码 ) 
| »mü |  [ | 
Paine TO | 
(6) ADD a 的 值 (无 代码 ) 
Lamm | | | 
(7) ST b 的 什 (规范 化 ) 
| a 的 地 址 | | | 
(8) sr 空 栈 ADD a, b 


图 9-3 ”虚拟 栈 中 从 内 存 到 内 存 的 代码 


当 一 个 存储 操作 发 现 待 处 理 的 目标 与 表达 式 元 素 中 的 一 个 操作 数 相 匹配 时 , 将 生成 一 个 基 
于 内 存 的 算术 运算 进行 计算 ， 而 不 是 装 入 一 个 寄存 器 的 值 。 任 何 时 候 只 要 表达 式 超过 一 个 运算 
符 ， 就 会 像 先前 那样 分 配 一 个 寄存 器 ， 并 生成 必要 的 代码 将 它 约 简 为 一 个 运算 符 。 原 则 上 ， 这 
一 类 设计 的 复杂 度 极限 就 是 目标 机 器 体系 结构 的 复杂 度 。 如 果 计 算 机 的 寄存 器 到 内 存 寻 址 模式 
仅 支 持 加 法 和 减法 ， 编 译 程序 就 不 必 将 乘法 运算 符 保留 在 虚拟 栈 中 。 如 果 计 算 机 有 一 些 怪异 的 
指令 可 在 内 存 中 执行 乘法 和 加 法 的 组 合 ， 编 译 程序 就 值得 在 单个 虚拟 栈 单元 中 同时 保存 两 个 运 
算 符 和 全 部 三 个 操作 数 ， 从 而 在 参数 使 得 有 可 能 使 用 该 指令 时 ， 这 些 信 息 都 是 可 用 的 。 
9.3.6 “分 支 寻 址 选择 | 

在 编译 程序 设计 中 ， 通 常会 更 关注 分 支 寻 址 ， 因 为 程序 员 几 乎 无 法 控制 这 些 寻 址 模式 ， 并 
且 在 现代 计算 机 体系 结构 的 典型 程序 中 ， 分 支 的 范围 很 可 能 涉及 多 种 寻 址 模式 。 此 外 ， 一 条 分 
支 指令 通常 横 跨 多 个 分 支 ， 后 面 的 寻 址 模式 选择 决策 影响 到 前 面 决策 的 跨度 的 情况 并 不 少见 。 

在 一 些 计算 机 中 ， 用 于 测试 比较 结果 的 条 件 分 支 仅 使 用 短 寻 址 模式 ， 而 无 条 件 分 支 则 既 可 
以 是 短 的 也 可 以 是 长 的 。 在 这 种 情况 下 ， 编 译 程序 必须 定义 一 种 “ 超 长 的 ”条 件 分 支 宏 ， 其 组 
成 是 一 个 条 件 分 支 “ 保 留 原 条 件 〉》 围 绕 一 条 无 条 件 长 分 支 形 成 的 序列 。 然 后 ， 这 个 宏 可 看 作 一 
条 非常 长 的 指令 ， 用 于 代码 生成 目的 。 

当 已 知 一 个 目标 地 址 远 比 长 〈 或 短 ) 地 址 空间 的 边界 更 近 《〈 或 更 远 ) 时 ， 分 支 寻 址 第 一 次 
学 试 即 可 正确 地 给 出 决策 。 在 向 后 分 支 的 情况 下 这 特别 容易 实现 ， 因 为 目标 的 物理 地 址 是 已 知 
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的 。 向 前 分 支 则 需要 先 执行 一 遍 程序 统计 的 数据 流 分 析 以 提供 信息 ， 这 一 统计 分 析 将 计算 可 能 
的 指令 字数 目 ， 为 后 续 优 化 工作 留 下 很 大 的 空间 。 剩 余 的 分 支 通常 被 指定 为 缺 省 模式 ， 并 在 后 
续 分 析 中 不 断 修正 。 

最 优 算法 的 复杂 性 与 分 支 数 目的 平方 成 正比 。 它 在 所 有 无 法 确定 的 情况 下 产生 最 少 的 分 
支 ， 然 后 审查 每 一 分 支 的 代码 ， 将 那些 初步 决策 证 明 无 效 的 地 方 蔡 换 为 长 分 支 。 这 可 能 导致 其 
他 分 支 无效 ， 因 而 该 过 程 必须 迭代 执行 ， 直 至 最 后 稳定 。 注 意 ， 每 次 对 任 一 分 支 寻 址 模式 的 修 
改 都 必须 调整 所 有 的 分 支 ， 因 为 跟 在 被 修改 分 支 指令 后 面 的 代码 将 被 移动 以 适应 这 一 修改 ， 任 
何 跳 转 到 被 移动 代码 中 的 分 支 可 能 不 再 是 正确 的 ;被 移动 代码 中 的 绝对 分 支 、 或 跳出 被 移动 代 
码 的 相对 分 支 也 变 得 无 效 。 通 常 不 推荐 使 用 这 一 算法 ， 因 为 可 找到 一 个 线性 时 间 的 算法 ， 不 必 
移动 或 删除 生成 的 代码 即 可 给 出 安全 的 决策 ， 仅 在 非常 少见 的 情况 下 (通常 是 5% 或 更 少 ),， 分 
支 是 次 优 的 ， 这 取决 于 代码 中 分 支 的 密度 以 及 短 寻 址 模式 的 跨度 。 

线性 算法 需要 使 用 一 个 队列 数据 结构 ， 将 与 短 寻 址 分 支 的 跨度 一 样 多 的 字 放 入 队列 中 ， 队 
列 中 的 每 一 个 字 可 保存 一 个 最 小 的 指令 字 。 代 码 生成 程序 将 所 有 生成 的 代码 输出 到 队列 的 一 
端 ， 而 不 是 直接 将 生成 的 代码 写 到 输出 文件 中 或 已 完成 的 代码 块 中 ; 仅 当 队列 为 满 时 ， 才 将 代 
码 从 队列 的 另 一 端 发 送 到 一 个 输出 文件 中 。 

每 一 个 未 知 的 分 支 都 生成 一 个 跳 转 到 队列 中 的 长 分 支 ， 所 有 分 支 在 队列 另 一 端 出 队 时 将 被 
审查 。 如 果 一 个 向 后 分 支 入 队 时 其 目标 仍 在 队列 中 ， 则 已 知 该 分 支 是 一 个 短 分 支 ， 否 则 为 它 生 
成 一 个 长 分 支 。 一 个 向 前 分 支 在 入 队 时 先 被 假定 为 长 分 支 (这 不 需要 提前 进行 分 析 )， 如 果 在 
退出 前 目标 地 址 已 入 队 则 修改 为 短 分 支 。 在 代码 入 队 时 ， 可 基于 如 下 假设 初步 推断 分 支 的 偏 移 
f. 队列 中 的 所 有 字 是 已 完成 的 代码 ， 当 分 支出 队 时 计算 实际 的 地 址 值 。 

这 里 假设 目标 地 址 的 标记 在 队列 中 不 占 空间 ， 并 且 分 支 与 目标 地 址 的 标记 一 一 匹配 ( 跳 转 
到 单个 地 址 的 多 个 分 支 分 别 有 多 个 对 应 匹配 的 地 址 标记 )。 在 实际 应 用 中 ， 可 为 地 址 标记 在 队 
列 中 分 配 附加 的 字 。 类 似 地 ， 如 果 每 次 一 个 目标 地 址 入 队 时 与 之 匹配 的 分 支 仍 在 队列 中 ， 则 可 
用 地 址 大 小 之 差 在 逻辑 上 压缩 队列 ; 如 果 数 据 结构 大 得 足以 为 每 一 逻辑 上 的 压缩 容纳 额外 的 代 
码 字 ， 则 在 物理 上 没有 必要 移动 队列 中 的 代码 。 可 用 一 个 单独 的 变量 为 实际 的 代码 字 计 数 ， 因 
而 逻辑 队列 的 大 小 仍 是 一 个 常量 。 注 意 每 一 分 支出 队 时 ， 字 计数 器 可 通过 该 分 支 的 逻辑 大 小 进 
行 调整 ， 从 而 记录 其 流量 。 代 码 清单 9.6 给 出 了 一 个 分 支 寻 址 队列 的 代码 。 


代码 清单 9.6 ”一 个 分 支 寻 址 选择 队列 〈 声 明 ) 


MODULE BranchQueue; 


(* 用 于 生成 相当 好 的 跳 转 地 址 。 用 法 : 





向 前 跳 转 : 向 后 跳 转 : 
lab := UniqueLabel(); lab :- UniqueLabel(); 
EmitJump(TRUE, lab); EmitLabel(FALSE, lab); 
EmitCode(theOp, opnd, nWords); EmitCode(theOp, opnd, nWords); 
EmitLabel(TRUE, lab); EmitJump(FALSE, lab); 


然后 在 编译 结束 时 调用 FlushQueue(). 


*) 
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FROM TargetGenerator IMPORT 


CurrentAddress, (* 下 一 输出 代码 字 的 逻辑 地 址 *) 
EmitToTarget, (* 输出 一 条 目标 机 器 指令 *) 
BackPatch; (* 回填 先前 输出 的 短 分 支 或 长 分 支 * ) 
FROM CodeConstants IMPORT 
ShortJumpRange, (* 从 下 一 位 置 开 始 的 最 远 的 短 跳 转 *) 
ShortJumpSize, LongJumpSize, (* 生成 的 指令 字 的 数目 *) 
GenericOpcode, (* 操作 码 列表 ,包括 shortBr f LongBr *) 
AddressMode; (* 寻 址 模式 列表 ， 包 括 shrt 和 long *) 
EXPORT 
EmitJump, EmitLabel, EmitCode, (* 将 它们 输出 到 队列 中 *) 
UniqueLabel, (* 获取 一 个 新 标号 *) 
FlushQueue; (* 编译 结束 时 调用 该 过 程 *) 
CONST 


maxtable = 500; 


TYPE 
queueRange - [0 .. maxtable]; 
queuedata - (other, justcode, jumped, fordjmp, backjmp 
, alabel, backlab, longlab, shortlab, deleted); 
VAR 


QueueTake, QueueInto, QueueSize: queueRange; 
nextLabel: INTEGER; . 
CodeQueue: ARRAY queueRange OF RECORD 
kind: queuedata; 
theOpcode: GenericOpcode; 
aNumber, theData: INTEGER 
END; 


PROCEDURE FindLabel(theLabel: INTEGER): queueRange; 


VAR 

index: queueRange; 
BEGIN 

index :- QueueInto; 


WHILE index «» QueueTake DO 
IF index - 0 THEN 
index :- maxtable 
ELSE 
DEC (index) 
END; 
WITH CodeQueue[index] DO 
IF (kind » other) AND (aNumber - theLabel) THEN 
RETURN index 
END 
END (* WITH *) 
END (* WHILE *) 
END FindLabel; 


PROCEDURE UpdateQueue(addwords: INTEGER; additem: BOOLEAN); 
VAR 
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recycle: BOOLEAN; 
locn: INTEGER; 
BEGIN 
IF additem THEN 
IF Queuelnto = maxtable THEN 
QueueInto := 0 
ELSE 
INC (QueueInto) 
END; 
QueueSize := QueueSize + addwords 
END; 
WHILE (QueueInto # QueueTake) AND (NOT additem OR (QueueSize > ShortJumpRange) 
OR ((QueueInto + maxtable - QueueTake) MOD maxtable < 5)) DO 
recycle :- FALSE; 
WITH CodeQueue[QueueTake] DO 
CASE kind OF 


other: 
EmitToTarget(theOpcode, theData, aNumber); 
QueueSize :- QueueSize - aNumber 

jumped, backlab: 
recycle :- TRUE 

fordjmp: 


IF theOpcode - ShortBr THEN 
EmitToTarget(ShortBr, 0, ShortJumpSize); 


QueueSize :- QueueSize - ShortJumpSize 

ELSE 
EmitToTarget(LongBr, 0, LongJumpSize); 
QueueSize :- QueueSize - LongJumpSize 

END; 

kind := jumped; 

theData :- CurrentAddress; 

recycle :- TRUE 

backjmp: 

WITH CodeQueue[FindLabel (aNumber)] DO 

locn := theData; 


kind := deleted 

END; (* 内 层 WITH *) 

IF CurrentAddress - locn « ShortJumpRange THEN 
EmitToTarget(ShortBr, locn, ShortJumpSize) 


ELSE 
EmitToTarget(LongBr, locn, LongJumpSize) 
END 
alabel: 
kind :- backlab; 
theData :- CurrentAddress; 
recycle :- TRUE | 


longlab, shortlab: 
WITH CodeQueue[FindLabel(aNumber)] DO 
locn :- theData; 
kind :- deleted 
END; (* AJR WITH *) 
IF kind - shortlab THEN 
BackPatch(ShortBr, locn, CurrentAddress) 
ELSE 
BackPatch(LongBr, locn, CurrentAddress) 
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END | 
deleted: 
(5 这 已 经 被 使 用 ， 和 忽略 它 *) 
END (* CASE *) 
END; (* WITH *) 
IF recycle THEN 
CodeQueue[QueueInto] := CodeQueue[QueueTake]; 
IF QueueInto = maxtable THEN 
QueueInto := 0 
ELSE 
INC (QueueInto) 
END 
END; 
IF QueueTake - maxtable THEN 
QueueTake :- 0 
ELSE 
INC (QueueTake) 
END 
END (* WHILE *) 
END UpdateQueue; 


PROCEDURE EmitCode(theOp: GenericOpcode; operand, nWords: INTEGER); 
BEGIN 
WITH CodeQueue[QueueInto] DO 


kind :- justcode; 

aNumber :- nWords; 

theOpcode :- theOp; 

theData :- operand 
END; 


UpdateQueue (nWords, TRUE) 
END EmitCode; 


PROCEDURE EmitLabel (forward: BOOLEAN; theLabel: INTEGER); 
VAR 
mykind: queuedata; 
addwords: INTEGER; 
BEGIN 
addwords := 0; 
IF forward THEN 
WITH CodeQueue[FindLabel(theLabel)] DO 
IF kind - fordjmp THEN 
mykind :- shortlab; 
theOpcode :- ShortBr; 
addwords :- ShortJumpSize - LongJumpSize 
ELSE 
mykind :- longlab 
END 
END (* WITH *) 
ELSE 
mykind :- alabel 
END; 
WITH CodeQueue[QueueInto] DO 
kind :- mykind; 
theOpcode :- BackP; 
aNumber :- theLabel; 
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theData :- 0 
END; 
Updat eQueue (addwords, 
END EmitLabel; 








TRUE) 


PROCEDURE EmitJump (forward: BOOLEAN; toLabel: INTEGER); 
VAR 

mykind: queuedata; 

addwords: INTEGER; 
BEGIN 

addwords := LongJumpSize; 

mykind := backjmp; 

IF forward THEN 

mykind := fordjmp 
ELSE 


WITH CodeQueue[FindLabel(toLabel)] DO 
IF kind - alabel THEN 


addwords :- ShortJumpSize 
END 
END (* WITH *) 
END; (* IF *) 
WITH CodeQueue[QueueInto] DO 
kind :- mykind; 
IF addwords - ShortJumpSize THEN 
theOpcode :- ShortBr 
ELSE 
theOpcode :- LongBr 
END; 
aNumber :- toLabel; 
theData := 0 
END; 


UpdateQueue (addwords, 
END EmitJump; 


PROCEDURE FlushQueue(); 
BEGIN 





UpdateQueue(0, FALSE) 
END FlushQueue; 
PROCEDURE UniqueLabel(): 
BEGIN 


INC (nextLabel); 
RETURN nextLabel 
END UniqueLabel; 


BEGIN 
QueueTake :- 0 
QueueInto :- 0; 
QueueSize := 0 
nextLabel := 0 

END BranchQueue. 


TRUE) 


INTEGER; 


(* BranchQueue 的 初始 化 代码 *) 





9.3.7 tt 


在 同时 支持 长 分 支 与 短 分 支 寻 址 模式 的 计算 机 中 ， 以 速度 开销 换取 空间 优化 的 一 种 更 有 趣 
的 方法 ， 是 尝试 以 一 个 短 分 支 跳 转 到 具有 相同 终结 目标 的 其 他 分 支 ， 从 而 取代 原来 的 长 分 支 。 
一 个 源 程序 中 连续 的 ELSIF 子 名 往往 会 产生 一 条 无 条 件 跳 转 指令 ， 从 每 一 子 句 的 最 后 跳 转 到 
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则 未 必 。 然而， 如 果 每 一 条 单独 的 子 句 不 是 特别 长 ， 则 每 一 出 口 的 跳 转 在 短 分 支 寻 址 范围 内 即 
可 到 达 下 一 子 句 的 出 口 跳 转 。 因 而 蔡 换 更 近 的 目标 地 址 会 导致 多 个 短 跳 转 的 执行 ， 而 不 是 一 个 
长 的 跳 转 。 这 通常 实现 为 已 生成 代码 上 的 罕 孔 优化 ， 但 也 很 容易 修改 树 平展 代码 生成 程序 ， 可 
能 基于 分 析 程序 或 一 遍 统计 数据 流 分 析 提 供 的 一 些 信息 ， 在 生成 代码 时 将 分 支 组 成 一 条 链 。 
如 果 不 考虑 分 支 链 ， 代 码 生 成 程序 往往 在 到 达 ELSE (或 ELSIF) 时 生成 一 条 跳 转 指令 ， 
并 且 在 递归 调用 生成 该 子 句 代 码 的 StatementList 返回 时 输出 匹配 的 标号 。 如 果 将 标号 发 送 
给 生成 ELSIF 子 句 代码 的 非 终 结 符 ， 则 可 将 分 支 组 成 一 条 链 ， 从 而 恰好 在 一 个 分 支 生成 自己 的 
出 口 跳 转 指令 之 前 可 输出 该 标号 。 就 算 一 个 分 支 没有 自己 的 跳 转 指 令 ， 它 也 必须 输出 这 一 标号 ， 
这 增加 了 一 些 复杂 性 。 代 码 清单 9.7 演示 了 这 种 优化 的 通用 形式 。 类 似 的 逻辑 还 可 用 于 汇合 一 个 
CASE 结构 的 所 有 支 路 的 执行 路 径 ， 再 稍 加 修改 ， 同 一 优化 技术 还 可 用 于 处 理 髓 套 的 IF 语句 。 


代码 清单 9.7 在 一 个 代码 生成 程序 的 文法 中 构建 分 支 链 


Statement 
> "IF" IfStatement Lo { 尚 无 分 支 需要 串 成 链 } 
> a { 其 他 语句 } 


IfStatement lchained:int 


—  BoolExpn 
(UniqueLabel Tmyelse; EmitJump lmyelse] 
"THEN" StatementList 
([chained # 0; EmitLabel Jchained])? 
{ 此 处 将 传 入 的 分 支 串 成 链 } 
( "ELSIF" 
(UniqueLabel Tmyexit; EmitJump Įmyexit; EmitLabel Jmyelse] 
IfStatement Jmyexit { 向 下 传递 自己 的 出 口 标号 } 
"ELSE" 
(UniqueLabel Tmyexit; EmitJump dmyexit; EmitLabel lmyelse] 
StatementList 
"END" 





[EmitLabel lJmyexit] 
| "END" 

[EmitLabel Jmyelse] 
); 


从 时 / 空 折 中 这 个 统一 体 的 另 一 角度 看 ， 自 然 链接 在 一 起 的 分 支 也 可 由 代码 生成 程序 解 
F. BUE IF 语句 可 产生 自然 的 分 支 链 ， 其 中 内 层 IF 的 THEN 子 句 跳 过 其 ELSE 子 句 后 ， 直 接 
又 跳 过 外 层 rr 语句 的 ensE 子 句 。 若 要 消除 第 二 条 跳 转 指令 ， 则 需要 合成 一 个 出 口 标号 的 列 
表 沿 分 析 树 向 上 传递 ， 并 在 待 生成 的 下 一 代码 不 是 跳 转 指令 时 输出 。 


9.4 ”代码 生成 的 复杂 性 


代码 生成 本 质 上 有 两 种 基本 上 相反 的 方法 ， 一 种 更 简单 ， 而 另 一 种 更 优 。 简 单 的 方法 是 在 
目标 机 器 中 尽 可 能 地 为 抽象 虚拟 机 建 模 。 另 一 种 方法 寻求 以 目标 机 器 代码 对 不 同 的 抽象 算法 进 
行 编 码 ， 然 后 尝试 在 中 间 代 码 树 中 识别 该 抽象 算法 的 成 分 ， 从 而 可 生成 该 算法 的 最 优 代码 序列 。 
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一 个 实用 的 代码 生成 程序 往往 采纳 这 两 个 极端 的 某 一 折 中 方案 。 本 书 已 展示 了 寄存 器 分 配 情况 下 
这 种 折 中 方案 的 一 些 选择 范围 。 在 寄存 器 栈 的 实现 中 精密 地 建 模 了 抽象 虚拟 机 ， 而 在 虚拟 栈 结构 
中 携带 运算 符 和 两 个 操作 数 使 得 生成 的 代码 几乎 接近 于 专业 级 汇编 程序 员 可 能 写 出 的 最 佳 代 码 。 

很 重要 的 一 点 是 应 意识 到 , 即便 对 于 一 个 编译 程序 而 言 , 计算 机 只 是 一 个 细微 的 考虑 因素 ， 
但 每 一 计算 机 都 有 图 灵机 的 能 力 ， 即 它 有 能 力 计 算 任何 可 计算 的 问题 〈 在 内 存 大 小 限制 之 内 ， 
包括 联机 文件 存储 )。 我 们 在 这 里 考虑 的 问题 不 是 “可 编译 什么 ?”( 该 问题 的 答案 是 “所 有 东 
西 ”)， 而 是 “编译 它 的 最 佳 方法 是 什么 ?”。 如 果 一 个 商用 编译 程序 无 法 为 一 个 常见 的 程序 序 
列 找 出 最 佳 的 代码 ， 那 么 它 在 市 场 上 就 会 被 这 方面 的 成 功 者 取代 。 

像 本 书 这 类 关于 编译 程序 设计 的 一 般 性 论著 很 难 给 出 最 优 代码 生成 的 特定 细节 ， 因 为 每 一 
种 计算 机 的 指令 集 是 不 同 的 ， 这 些 差别 往往 微妙 但 影响 深远 。 对 这 一 问题 的 处 理 几乎 总 是 需要 
划分 为 两 个 阶段 。 第 一 阶段 要 求 采用 机 器 语言 或 汇编 语言 为 目标 机 器 编写 代码 ， 以 及 评审 其 他 
专业 级 程序 员 编 写 的 机 器 语言 代码 , 从 而 对 机 器 的 指令 集 越 来 越 熟悉 。 只 有 基于 这 样 的 洞察 力 ， 
才 有 可 能 实现 一 个 可 输出 相当 不 错 代码 的 代码 生成 程序 。 第 二 阶段 要 求 研究 从 各 种 样 例 程序 生 
成 的 代码 ， 若 有 可 能 则 手工 重 写 这 些 代码 以 改进 其 性 能 ， 然 后 再 修改 代码 生成 程序 (通常 是 添 
加 一 些 特殊 处 理 的 情况 ) 以 自动 地 生成 改进 的 代码 。 第 二 阶段 可 以 和 迭代 任意 多 次 ， 但 不 应 省 略 
这 一 阶段 ， 因 为 再 细心 设计 的 编译 程序 在 投入 真正 应 用 中 处 理 真 实 程序 时 ， 也 会 产生 一 些 令 人 
意 想 不 到 的 事情 。 

某 一 特定 算法 的 最 优 代 码 序列 可 能 并 不 是 显而易见 的 。 尽 管 大 多 数 机 器 指令 的 设计 都 设想 
了 其 特定 用 途 ， 但 其 中 许多 指令 存在 一 些微 妙 的 副作用 ， 聪 明 的 编译 程序 可 加 以 发 据 以 取得 性 
能 上 的 改进 。 一 个 集成 了 尽 可 能 多 的 已 知 优化 技术 的 编译 程序 在 生成 每 一 个 可 能 的 指令 序列 
时 ， 都 将 寻求 最 少 的 代码 以 达到 某 种 已 报导 过 的 特定 效果 ， 从 而 产生 一 些 程序 员 手 工 从 未 考虑 
过 的 奇妙 组 合 。 

在 接 下 来 的 章节 中 ， 本 书 将 首先 讨论 比较 正规 的 指令 集 上 的 代码 生成 通用 问题 ， 然 后 讨论 
一 些 处 理 怪异 或 不 常见 指令 的 例子 。 

9.4.1 指令 选择 

任何 真正 的 计算 机 语言 ,包括 Modula-2 和 COBOL 等 高 级 语言 以 及 作为 本 章 主题 的 低级 机 
器 语言 ， 均 提供 了 四 则 算术 运算 、 将 值 赋 给 一 个 变量 或 从 变量 恢复 当前 值 、 比 较 两 个 值 并 根据 
比较 的 结果 确定 控制 决策 、 跳 转 到 封闭 例 程 并 从 中 返回 等 机 制 。 大 多 数 语言 还 支持 多 种 数据 类 
型 或 数据 大 小 ， 并 约定 了 它们 之 间 相 互 转换 的 规则 。 一 些 语 言 自动 地 将 不 同 的 类 型 强制 转换 为 
兼容 的 形式 ， 而 男 一 些 语言 (如 Modula-2 语言 和 大 多 数 机 器 语言 ) 则 要 求 显 式 地 转换 。 

并 非 所 有 的 计算 机 语言 都 支持 所 有 令 人 感 兴趣 的 数据 类 型 。 例 如 ， 沃 思 设 计 的 Modula-2 
语言 缺少 一 种 复杂 算术 运算 的 数据 类 型 ， 许 多 小 型 的 计算 机 没有 浮 点 运算 的 硬件 指令 ， 有 些 其 
至 未 提供 整数 除法 指令 。 每 一 种 语言 的 图 灵机 计算 能 力 保证 了 所 有 缺失 的 特性 能 够 从 可 用 的 特 
TERME GRAD 出 来 ， 这 正 是 代码 生成 的 重要 组 成 部 分 之 一 。 如 果 一 个 编译 程序 的 源 语言 
持 整 数 除 法 ,而 其 目标 机 器 却 没有 这 一 特性 ， 则 该 编译 程序 必须 生成 一 个 合适 的 指令 序列 以 软 
件 方式 实现 除法 ， 常 见方 法 是 调用 一 个 由 编译 程序 提供 的 库 例 程 。 因 而 ， 编 译 程序 提供 的 库 例 
程 (或 编译 程序 可 用 的 其 他 方式 ) 扩展 了 目标 机 器 的 指令 集 ， 编 译 程序 的 真正 目标 机 器 是 如 此 
扩展 后 的 虚拟 机 。 
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分 析 程序 和 约束 程序 有 义务 找 出 被 编译 的 源 语言 中 每 一 运算 符 的 准确 操作 和 数据 类 型 。 这 
些 信息 可 直接 传递 给 代码 生成 程序 ， 也 可 附加 在 中 间 代 码 树 上 作为 结 点 名 和 装饰 。 虚 拟 目 标 机 
器 语言 中 必须 至 少 有 一 种 运算 符 与 中 间 代 码 中 的 每 一 抽象 操作 和 数据 类 型 相对 应 ， 惟 一 困难 的 
工作 就 是 在 有 多 个 运算 符 时 如 何 从 候选 清单 中 作出 抉择 。 

一 个 树 遍 历 文法 可 寻找 特定 的 树 模式 ， 并 代 之 以 标记 了 使 用 特定 指令 或 指令 序列 的 结 点 ， 
从 而 完成 一 些 指令 选择 工作 。 如 果 目 标 机 器 上 的 乘法 运算 比 移 位 运算 慢 〈 通 常 如 此 )， 则 一 标 
表示 与 2 的 常量 守 相 乘 的 子 树 模板 可 转换 为 一 个 左 移 位 运算 。 如 果 乘 法 与 移 位 或 加 法 有 较 大 的 
性 能 差距 ， 那 么 一 个 涉及 两 个 2 WZ A (RA) HRR CBM 3, 5. 7. 9, 10. 15. 20, 30, 
40 等 ) 也 可 考虑 这 类 优化 。 然 而 应 注意 ， 任 何 有 意义 的 副作用 必须 予以 保留 。 例 如 ， 如 果 一 种 
语言 要 求 报告 算术 运算 的 溢出 信息 ， 则 生成 的 代码 应 检查 从 结果 的 左 端 移出 的 位 ， 并 在 出 现 超 
范围 乘积 时 执行 相同 的 动作 。 此 外 还 应 注意 的 是 ， 第 8 章 所 述 的 诸如 消除 范围 检查 等 数据 流 分 
析 可 令 许 多 这 类 溢出 测试 变 得 没有 必要 。 


源 代码 
内 存 布局 


VAR arry [l .. 9, ¿+ 7] OF REAL; 





x :s arfty[n + 8, ; 0262 





0263 
0264 
0265 
0266 






0267 
中 间 代 码 树 





w -1 o Ui 心 w 





优化 后 的 
代码 树 











Q Q O @ 
(n) (8) 将 加 法 移 至 乘法 之 上 


图 9-4 在 数组 下 标 计算 中 向 外 传播 常量 。 其 中 的 插图 展示 了 加 法 如 何 移出 到 乘法 之 上 
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一 个 特别 有 意思 的 优化 是 识别 一 个 记录 字段 的 选择 中 出 现 的 常量 偏 移 量 合计 ， 或 栈 中 (或 
全 局 帧 中 ) 常量 数组 下 标 和 变量 偏 移 量 的 合计 。 当 数据 下 标 范围 的 下 界 不 为 0 时， 即便 数组 下 
标 不 是 一 个 常量 ， 也 可 将 地 址 中 一 些 常 量 成 分 向 外 传播 给 变量 引用 ， 以 减少 运行 时 所 需 的 算术 
运算 。 注 意 ， 为 避免 运行 时 不 必要 地 计算 下 标 基 址 偏 移 量 ， 必 须 对 树 进 行 变 换 ， 从 而 将 一 个 常 
量 与 涉及 另 一 常量 的 和 《或 差 ) 的 乘积 转换 为 一 个 乘积 之 和 ， 如 图 9-4 所 示 。 然 后 在 运行 时 通 
过 一 个 显 式 的 运算 符 完成 乘法 ， 加 法 则 与 隐 式 的 和 合并 到 硬件 的 变量 引用 中 。 如 果 寻 址 操作 足 
够 明显 ， 在 遍历 代码 树 的 常量 折 释 优化 中 即 可 实现 这 一 变换 [Pittman, 1985]; 如 果 虚 拟 栈 以 本 
章 前 述 方式 容纳 了 一 个 运算 符 和 两 个 操作 数 ， 也 可 在 寄存 器 代码 生成 的 模拟 执行 中 实现 这 一 变 
换 。 两 种 方案 的 结果 是 相同 的 : 单个 变量 引用 以 及 一 个 计算 得 到 的 偏 移 量 ， 偏 移 量 从 符号 表 中 
定义 的 偏 移 量 开 始 计算 。 

在 某 些 计算 机 上 , 翻译 数组 下 标 地 址 的 引用 还 可 改进 FOR 循环 的 控制 变量 的 测试 。 如 果 硬 
件 支持 0 测试 或 符号 测试 的 代码 少 于 与 另外 的 任意 值 进行 比较 的 代码 ， 则 编译 程序 就 可 考虑 为 
FOR 循环 的 控制 变量 添加 一 个 仅 用 于 数组 下 标 计算 的 偏 移 量 ， 从 而 使 得 其 最 终 的 值 为 0。 该 偏 
移 量 将 加 回 到 每 一 个 数组 引用 的 地 址 ， 而 后 者 只 是 编译 时 的 计算 ， 不 会 在 程序 运行 时 带 来 任何 
开销 。 
94.2 REMIS 

变量 范围 分 析 也 可 有 助 于 代码 生成 时 的 强度 削弱 ;如果 可 确定 一 个 一 般 被 声明 为 长 整数 的 
变量 在 计算 过 程 的 某 一 特定 点 所 包含 的 值 落 在 硬件 的 短 整 数 格式 的 范围 ， 则 此 时 采用 短 格式 的 
计算 将 更 快 。 例 如 ， 一 种 流行 的 计算 机 支持 两 个 短 整数 的 乘法 ， 但 不 支持 两 个 长 整数 相 乘 ， 而 
后 者 需要 三 条 或 四 条 短 整 数 乘法 指令 的 乘积 之 和 。 知 道 操作 数 中 的 一 个 或 两 个 为 短 整 数 后 ， 可 
大 大 提升 复合 操作 的 速度 。 , 

一 些 计 算 机 还 有 专门 的 指令 用 于 设置 或 清除 一 个 字 中 的 某 一 位 ， 这 些 指令 可 用 于 实现 位 
集 。 然 而 ， 这 些 指 令 对 于 生成 { x .. y } 这 类 集合 元 素 的 范围 却 没有 什么 帮助 。 假 设 一 个 位 集 完 
全 可 由 一 个 计算 机 字 容 纳 ,这 类 计算 的 最 佳 代码 需要 构造 单元 素 集 xs = {x } 和 ys= 1 yb 然后 
CBR x Sy) 使 用 普通 的 整数 算术 运算 来 计算 ys * 2 -xs， 这 正 是 { x ..y }。 如 果 计 算 机 中 没有 
专门 的 指令 设置 一 个 位 ， 可 通过 将 值 1 AB x 位 构造 出 一 个 字 的 单元 素 集 {x }， 或 (在 某 些 
计算 机 中 更 快 ) 在 一 个 表 中 查找 以 x 作为 索引 的 字 。 如 果 位 集中 的 每 一 位 表示 为 一 个 字 ， 这 个 
表 并 不 会 非常 大 ， 每 次 多 集合 运算 都 通过 移 位 设置 这 些 集合 ， 所 花费 的 代码 开销 可 能 很 容易 就 
超过 在 表 中 的 检索 再 加 上 表 本 身 。 注 意 ， 在 查 表 方 法 中 ys * 2 不 会 花费 额外 的 计算 开销 ， 因 为 
它 只 是 表 索 引 [y+ 1 ] 指 向 的 一 个 元 素 而 已 。 当 x 和 y 横 跨 一 个 集合 中 的 不 同 字 时 ， 这 一 过 程 稍 
微 复杂 一 些 ， 第 一 个 字 的 组 成 是 -xs 运用 2 的 算术 补 运 算 ， 最 后 一 个 字 是 ys * 2-1, RAE 
中 间 的 字 〔 如 果 有 的 话 〉 均 为 -1。 

紧 姿 位 集 并 不 是 集合 的 惟一 合理 实现 。 在 缺少 带 索引 位 测试 指令 的 计算 机 中 ， 程 序 员 常 用 
于 限定 字符 变量 的 集合 常量 CEA IF x IN ("A" .. "z")) 的 更 高 效 实现 方式 可 能 是 在 每 
一 字 节 存储 一 个 集合 元 素 , 然后 用 表达 式 x 直接 检索 数组 ,再 接着 -- 条 移 位 或 “逻辑 与 (ANDp)” 
指令 测试 这 个 位 。 同 一 张 表 中 最 多 可 存储 8 个 不 同 的 集合 常量 ， 在 每 一 个 位 的 位 置 存放 一 个 常 
量 。 当 速度 比 内存 空 间 更 重要 ， 且 一 个 集合 变量 大 部 分 用 于 元 素 测试 而 很 少 或 根本 不 会 用 于 涉 
及 并 集 或 交集 的 表达 式 中 时 , 也 可 采用 相同 的 方式 实现 集合 变量 , 每 字 节 表示 一 个 元 素 。 当 然 ， 
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你 不 能 像 集合 常量 那样 压缩 多 个 集合 变量 ， 但 元 素 测 试 的 速度 更 快 了 ， 因 为 不 需要 任何 移 位 或 
掩 码 运算 。 至 于 在 编译 时 是 否 不 压缩 一 个 集合 变量 ， 最 好 依据 对 程序 统计 分 析 后 提供 的 信息 来 
作 决 策 。 

即便 只 有 一 个 非常 有 限 的 机 器 指令 集 ， 生 成 创造 性 代码 的 机 会 仍 是 无 穷 的 。 如 果 一 个 编译 
程序 的 目标 机 器 仅 有 很 小 的 内 存 , 编译 程序 可 用 一 条 需要 双 字 节 地 址 的 内 存 引 用 指令 替换 一 条 
跳 过 后 续 两 个 字 节 代码 的 无 条 件 分 支 指令 :内存 引用 指令 是 一 个 比较 运算 ， 将 该 双 字 节 作为 地 
址 ,从 由 此 寻 址 的 任 一 随机 内 存 位 置 取 数 ,再 执行 比较 , 然后 忽略 结果 并 继续 执行 后 续 的 指令 ; 
男 一 执行 路 径 则 跳 过 比较 操作 码 , 直达 作为 其 地 址 部 分 的 双 字 节 的 首 字 节 , 并 从 这 里 恢复 执行 。 
我 们 可 能 会 批评 在 汇编 语言 中 手工 嵌入 这 类 代码 技巧 的 程序 员 ， 但 编译 程序 这 么 做 时 可 保证 正 
确 性 和 安全 性 ， 或 在 无 效 时 拒绝 这 么 做 。 


9.5 ”专用 指令 


计算 机 硬件 设计 人 员 似 乎 无 法 避免 经 常 届 服 于 专业 级 汇编 语言 程序 员 索 要 这 种 或 那 种 特 
殊 指 令 的 压力 。 一 个 简单 的 编译 程序 将 直接 忽略 这 些 华而不实 的 怪异 东西 ， 切 实 奉行 手工 编写 
的 汇编 代码 比 编译 程序 生成 的 代码 更 为 高 效 这 一 广 为 接受 的 信念 。 只 要 为 代码 生成 程序 付出 更 
多 的 心血 ， 细 心 的 编译 程序 设计 人 员 可 采用 适当 方式 利用 这 些 神秘 指令 ， 使 得 开发 出 来 的 编译 
程序 更 有 价值 。 在 一 个 较 快 的 编译 程序 中 充分 挖 据 计 算 机 资源 的 潜能 ， 确 实 可 算得 上 是 一 种 艺 
术 工 作 。 

一 种 常见 的 微 处 理 器 有 好 几 条 指令 被 设计 为 迭代 地 执行 ， 另 有 一 条 特殊 的 “ 选 代 ”指令 可 
实现 这 一 目标 。 这 些 指 令 的 本 意 是 支持 字符 串 数 据 ， 但 它们 还 可 用 于 实现 对 记录 或 数组 这 类 数 
据 结构 的 赋值 。 编 译 程序 设计 人 员 应 仔细 分 析 实 现 重 复 搬移 的 代码 ， 当 数据 结构 不 长 于 一 个 字 
时 ， 选 择 由 一 个 个 单字 装 入 和 存储 指令 组 成 的 序列 ， 因 为 循环 花费 的 执行 时 间 开 销 通常 大 于 对 
应 的 展开 后 的 装 入 和 存储 操作 。 

必 一 种 常见 的 计算 机 缺少 迭代 指令 或 字符 串 指令 ， 但 支持 多 个 寄存 器 的 装 入 和 存储 。 这 两 
条 指令 的 本 意 是 在 一 个 中 断 服务 例 程 中 保存 和 恢复 处 理 器 的 状态 ， 以 及 在 一 个 过 程 的 入 口 处 分 
配 非 易 变 的 寄存 器 。 它 们 也 可 有 效 地 用 于 搬移 大 于 一 个 或 两 个 字 的 数据 结构 。 如 果 一 个 数据 结 
构 远 远大 于 可 用 寄存 器 所 能 容纳 的 数目 ， 通 常 最 有 利 的 做 法 是 将 尽 可 能 多 的 寄存 器 溢出 到 内 存 
中 ， 然 后 将 它们 全 部 用 于 一 个 长 搬移 循环 中 的 多 个 装 入 和 存储 操作 。 于 是 循环 的 开销 有 效 地 分 
摊 到 所 有 相关 的 寄存 器 ， 而 不 是 在 搬移 每 一 个 字 时 都 付出 所 有 的 开销 。 

只 要 对 循环 进行 充分 的 分 析 , 就 可 将 同一 技术 用 于 展开 源 代码 中 用 一 个 For 循环 编写 的 数 
组 初始 化 代码 。 存 储 到 数组 中 每 一 元 素 的 初始 值 可 在 若干 寄存 器 之 间 复 制 ， 寄 存 器 的 数目 划分 
了 数组 的 大 小 ;然后 调整 循环 控制 变量 ， 按 需要 执行 更 少 次 数 的 循环 。 如 果 不 可 能 找到 数组 大 
小 的 一 个 精确 约 数 ， 则 选择 一 个 小 于 整个 数组 的 最 方便 的 大 小 ， 最 后 再 在 循环 之 外 填充 剩余 的 
字 或 字 节 。 如 果 待 存储 的 值 不 统一 ( 非 0), 也 有 必要 选择 若干 寄存 器 恰好 涵盖 元 素 大 小 的 倍数 ， 
或 为 该 循环 添加 单独 的 存储 指令 ， 以 保持 这 些 块 的 大 小 一 致 。 

9.5.1 RISC 和 流水 线 处 理 器 调度 

尽管 并 行 化 和 流水 线 算 不 上 是 计算 机 体系 结构 的 最 新 成 果 ， 但 它们 在 计算 机 设计 中 已 越 来 

越 流行 。 一 个 计算 机 流水 线 将 它 执行 一 条 指令 所 耗费 的 时 间 划 分 为 离散 的 时 间 段 ， 并 在 硬件 中 
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的 顺序 部 件 中 执行 它们 。 当 指令 的 执行 前 进 到 下 一 阶段 时 ， 每 一 部 件 被 释放 并 开始 处 理 下 一 指 
令 。 尽 管 单个 操作 并 没有 加 快 ， 但 在 同一 时 间 有 多 个 操作 处 于 其 执行 过 程 中 的 某 一 阶段 ， 从 而 
产生 了 更 大 的 总 吞吐 量 。 然 而 ， 不 同 于 简单 的 计算 机 ， 这 意味 着 一 个 运算 的 结果 可 能 无 法 立即 
被 下 一 运算 使 用 。 

例如 ， 考 虑 以 下 程序 片段 : 


x+y; 
z * 3; 
a * b; 


b 

Cc 

第 二 条 赋值 语句 原则 上 可 在 第 一 条 语句 完成 之 前 开始 执行 ， 因 为 它 不 依赖 于 第 一 条 语句 的 
任何 结果 ， 况 且 其 算术 运算 也 可 能 要 求 使 用 不 同 的 〈 可 能 是 独立 的 ) 硬件 。 然 而 ， 第 三 条 语句 
同时 依赖 于 前 两 行 的 计算 结果 ， 并 且 依 赖 于 相同 的 算术 运算 ， 在 一 个 流水 线 计 算 机 中 ， 会 要 求 
该 语句 在 执行 其 计算 之 前 等 待 。 通 常 流水 线 计 算 机 的 编译 程序 有 义务 安排 程序 的 执行 步骤 ， 使 
得 相互 独立 的 运行 可 重 登 执行 ， 并 且 当 序列 处 理 所 需 的 输入 数据 变 得 可 用 时 ， 调 度 它们 开始 执 
行 。 另 一 些 计 算 机 体系 结构 提供 了 多 个 算术 运算 单元 ， 也 可 取得 类 似 的 效果 ， 此 时 编译 程序 也 
必须 调度 这 些 操作 ， 使 得 在 有 需要 时 所 需 的 算术 运算 单元 也 是 可 用 的 。 在 某 些 计 算 机 中 ， 硬 件 
会 在 有 需要 时 插入 一 些 延 时 指令 ;但 在 另 一 些 情况 下 ， 可 能 要 求 编译 程序 必须 完成 这 一 任务 。 

指令 调度 的 最 基本 需求 之 一 是 流水 线 分 支 指令 ， 其 中 分 支 指令 的 下 一 指令 在 该 分 支 指令 生 
效 之 前 就 已 开始 执行 。 这 意味 着 编译 程序 必须 将 该 指令 安排 为 一 条 与 分 支 指令 没有 依赖 关系 的 
指令 ， 或 播 入 一 条 或 多 条 纯粹 耗费 时 间 的 指令 。 

指令 调度 问题 在 不 少 方面 类 似 于 寄存 器 分 配 问 题 ， 但 两 者 之 间 仍 有 很 大 的 区 别 。 指 令 调 度 
的 实现 通常 是 在 代码 生成 程序 结束 后 的 一 次 窥 孔 优 化 ; 除了 个 别 的 分 析 ， 指 令 调度 并 不 能 很 好 
地 遵循 基于 文法 的 树 变换 实现 。 此 处 描述 的 算法 强调 单个 基本 块 的 指令 调度 ， 并 假设 正在 调度 
的 基本 块 代码 可 生成 到 一 个 临时 的 数据 结构 中 ,其 中 的 操作 可 按 任意 次 序 转换 为 最 终 的 目标 代 
码 文件 。 类 似 于 寄存 器 分 配 ， 最 优 算法 可 能 要 求 采 用 图 着 色 技 术 ， 本 书 的 简化 方法 通常 可 对 一 
大 类 流水 线 计 算 机 硬件 在 线性 时 间 内 产生 相当 好 的 结果 。 

用 于 指令 调度 分 析 的 数据 结构 是 一 个 有 向 无 环 图 (DAG)， 类 似 于 第 8 章 消除 公共 子 表达 
式 中 的 用 法 ， 其 中 的 有 向 边 表示 一 种 计算 依赖 关系 。 每 一 操作 内存 访 问 或 算术 运算 ) 是 图 中 
的 一 个 结 点 ， 并 被 连接 到 其 他 结 点 (表示 依 束 于 这 些 结 点 的 计算 结果 )，, 如 图 9-5 中 首尾 相连 的 
方 框 所 示 。 每 一 结 点 关联 一 个 时 间 段 《在 示意 图 中 表示 为 方 框 的 长 度 )， 其 依据 是 自 该 操作 开 
始 执行 、 直 至 计算 结果 可 用 的 这 段 硬件 处 理 时 间 。 

一 个 完整 的 基本 块 的 示意 图 将 包含 一 个 或 多 个 独立 的 子 图 ,这些 子 图 主要 由 操作 的 依赖 关 
系 链 组 成 。 图 9-5 中 有 两 个 独立 的 子 图 ， 其 中 的 大 图 汇合 了 几 条 不 同 的 链 ， 最 后 又 将 它 分 为 
两 条 链 。 开 始 构造 该 图 时 ， 结 点 〈 即 方 框 ) 之 间 的 排列 表示 尚未 考虑 指令 调度 时 各 个 操作 经 
过 处 理 器 流水 线 的 执行 时 间 ， 因 而 整个 基本 块 的 最 长 链 的 长 度 表示 一 条 资源 分 配 的 “关键 路 
fe". 于 是 可 以 确定 地 生成 调度 后 的 目标 代码 ; 选择 不 必 等 待 前 一 指令 计算 结果 的 最 长 链 的 第 
一 个 结 点 ， 从 该 链 中 删除 这 一 结 点 ， 并 在 其 位 置 插入 适当 的 延 时 。 只 要 处 理 器 单元 可 用 于 启 
动 新 的 独立 计算 ， 在 下 一 指令 周期 中 可 启动 另 一 处 理 ， 并 总 是 选择 不 必 等 待 未 完成 结果 的 最 
长 剩余 路 径 。 
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图 9-5 基于 DAG 关键 路 径 的 处 理 器 调度 。 图 a 展示 了 最 长 的 《关键 ) 路 径 ， 图 b 是 最 优 调度 之 后 的 情况 


如 果 计 算 机 有 固定 数目 的 几 个 不 同 处 理 单元 均 在 完成 其 操作 之 前 不 可 重新 利用 ， 这 一 简化 
的 调度 算法 可 能 无 法 产生 最 优 的 调度 。 问 题 出 在 第 二 条 链 有 机 会 占据 了 紧 随 其 后 的 关键 路 径 所 
需 的 资源 。 然 而 ， 该 算法 对 于 完全 流水 线 的 算术 运算 硬件 而 言 是 最 优 的 ， 因 为 这 种 计算 机 总 是 
准备 好 了 启动 任何 新 的 操作 .。 利用 相 邻 基本 块 的 少许 信息 , 还 可 提升 基本 块 边界 处 的 算法 性 能 。 

资源 调度 的 分 析 工 作 可 在 一 个 树 文 法 中 实现 ， 该 树 文法 构造 了 一 个 有 向 无 环 图 并 从 中 找 出 
关键 路 径 。 树 结 点 也 可 装饰 调度 信息 ， 但 以 调度 后 的 次 序 从 树 文法 生成 代码 却 是 相当 笨拙 的 ， 
因为 最 优 执行 时 间 中 的 顺序 操作 可 能 分 散在 多 棵 子 树 中 。 

在 图 9-5 的 示例 中 ,很 明显 的 是 将 表达 式 树 平衡 后 可 令 关 键 路 径 缩短 。 根 据 一 般 的 表达 式 
从 左 到 右 求 值 次 序 ， 在 关键 路 径 上 原本 有 两 个 加 法 运算 等 待 乘 法 运算 的 结果 ;运用 运算 符 的 结 
合 律 这 一 数学 原理 后 ， 减 法 可 与 乘法 运算 并 行 执行 ， 从 而 缩短 了 执行 时 间 。 然 而 注意 在 大 多 数 
计算 机 中 ， 加 法 并 不 是 严格 地 遵循 结合 律 ， 并 且 在 这 两 种 求 值 次 序 中 浮 点 运算 的 舍 入 效果 会 有 
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差别 。 在 考虑 不 同 候选 方案 时 ， 编 译 程序 设计 人 员 应 充分 了 解 这 一 问题 。 

如 果 计 算 机 还 想 进一步 执行 其 他 的 处 理 ， 图 9-5 中 调度 后 的 执行 次 序 提 供 了 若干 机 会 。 许 
多 并 行 和 流水 线 计 算 机 在 进入 下 一 步 计算 之 前 车 无 其 他 任务 要 处 理 , 则 只 是 等 待 当前 活跃 的 处 
理 器 产生 结果 ; 软件 只 管 发 射 下 一 条 指令 ， 如 果 它 依赖 于 一 个 当前 活跃 的 处 理 ， 则 计算 机 转 入 
等 待 。 在 最 新 设计 的 许多 高 速 计算 机 中 , 等 待 未 完成 处 理 的 额外 逻辑 将 降低 整个 计算 机 的 速度 。 
为 这 些 计算 机 生成 代码 时 ， 要 求 为 每 一 时 钟 周期 都 发 射 一 条 可 成 功 执行 的 指令 。 这 些 计算 机 中 
的 大 多 数 指令 被 设计 为 在 单个 时 钟 周期 内 执行 ， 因 而 等 待 一 个 流水 线 被 清空 通常 没有 问题 。 

分 支 指令 是 一 个 例外 。 为 与 计算 机 其 余部 件 的 速度 匹配 ， 这 类 计算 机 中 的 分 支 指令 必须 按 
流水 线 方式 执行 。 这 意味 着 程序 可 发 射 一 条 条 件 分 支 指令 , 但 计算 机 在 完成 判断 是 否 分 支 之 前 ， 
将 继续 取 指 令 并 开始 执行 一 条 或 两 条 另外 的 指令 。 因 而 ， 直 接 跟 在 条 件 分 支 指令 之 后 的 任何 指 
令 必须 具有 这 样 的 特性 ， 待 执行 的 分 支 决策 将 不 会 影响 其 有 效 性 。 

为 流水 线 的 分 支 指令 正确 地 生成 代码 类 似 于 流水 线 结构 的 功能 部 件 ， 相 似 之 处 在 于 编译 程 
序 必须 找 出 整个 基本 块 的 执行 依赖 链 。 其 目标 是 在 整个 基本 块 中 找到 与 以 最 后 一 条 分 支 指令 
结束 的 链 并 行 的 一 条 依赖 链 (或 链 的 片段 )， 并 在 分 支 之 后 输出 第 二 条 链 的 最 后 一 个 操作 。 注 
意 ， 根 据 基 本 块 的 定义 ， 分 支 指 令 在 逻辑 上 是 该 基本 块 的 最 后 一 个 操作 ， 以 这 种 方式 调度 分 
支 指令 并 不 改变 逻辑 操作 的 次 序 ， 因 为 分 支 操作 的 终止 依然 在 该 基本 块 的 最 后 。 如 果 在 基本 
块 的 结束 处 没有 并 行 的 链 ， 则 可 利用 某 一 后 继 基 本 块 的 第 一 个 操作 ， 只 要 该 操作 也 可 移入 所 
有 其 他 的 前 导 基 本 块 中 ， 并 且 除 不 可 被 丢弃 以 防 分 支 决策 转 入 到 其 他 路 径 之 外 ， 不 会 产生 任 
何 副作用 。 如 果 这 两 种 尝试 均 失败 ， 则 有 必要 在 分 支 指令 之 后 插入 一 条 或 多 条 NOP HS (# 
示 无 操作 )。 

左 移动 提升 这 种 优化 技术 已 将 一 个 分 叉 的 两 个 支 路 中 的 代码 移 回 到 先前 的 基本 块 中 , 它们 
总 是 位 于 并 行 的 链 中 ， 可 在 分 支 之 后 安全 地 执行 。 如 果 将 右 移动 提升 反 向 执行 ， 即 某 些 提 升 的 
代码 从 汇合 点 移 回 到 分 叉 的 两 个 支 路 中 ， 则 提升 后 的 代码 也 可 在 分 支 之 后 安全 地 执行 。 为 具有 
流水 线 分 支 指令 的 计算 机 编译 程序 时 ， 优 化 程序 可 为 那些 被 提升 的 代码 作 标记 ， 以 便于 后 续 分 
支 指 令 调度 的 实现 。 

那些 返回 到 一 个 循环 开始 处 的 分 支 指令 的 调度 特别 重要 ， 因 为 一 个 程序 的 大 多 数 执行 时 间 
都 花费 在 内 循环 。 如 果 在 循环 的 最 后 一 个 基本 块 找 不 到 一 条 并 行 链 的 指令 ， 则 应 移动 循环 开始 
处 的 第 一 条 指令 ， 既 要 移 至 循环 的 结束 处 ， 也 要 复制 到 循环 开始 之 前 的 初始 化 代码 中 。 当 然 ， 
这 里 假设 了 第 一 条 指令 的 结果 在 循环 退出 时 可 被 丢弃 ， 或 循环 最 后 的 分 支 是 一 个 无 条 件 分 支 。 
图 9-6 演示 了 循环 分 支 指令 调度 的 各 种 不 同情 况 。 
9.5.2 ”向 量 处 理 器 

计算 机 设计 人 员 为 取得 更 快 的 执行 速度 所 采用 的 另 一 技术 是 扩展 并 行 性 ,使 之 涵盖 在 一 个 
循环 中 对 一 个 数组 〈 即 向 量 ) 的 所 有 元 素 执行 本 质 上 相同 的 处 理 。 向 量 处 理 器 的 硬件 设计 是 将 
单个 或 少量 指令 应 用 到 一 系列 的 值 ， 这 些 值 要 么 规则 地 分 布 在 内 存 中 ， 要 么 预先 装 入 到 向 量 寄 
存 器 中 ; 然后 在 另 一 内 存 数 组 或 向 量 寄存 器 中 产生 结果 。 另 一 种 变形 是 有 多 个 并 行 算术 处 理 器 ， 
全 部 同一 指令 序列 控制 ， 每 一 处 理 器 均 在 整个 操作 数 数 组 的 一 个 切片 上 操作 。 由 于 这 些 操 作 也 
是 以 流水 线 方式 执行 的 ， 向 量 处 理 器 通常 可 在 每 一 时 钟 周期 重启 一 个 新 数组 元 素 上 的 计算 ， 有 
时 产生 的 吞吐 量 超 过 了 计算 机 的 时 钟 频率 。 
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n := x; 


REPEAT 
a f= a * bi 
neate È 


UNTIL n < 0; 
(* BERI n 不 再 活跃 *) 





9-6 ”流水 线 循环 分 支 指令 的 调度 。 图 a 表示 循环 不 变量 被 移出 后 的 未 调度 情况 ; 图 b 表示 在 分 支 之 后 
调度 第 二 条 链 的 最 后 一 个 操作 ; 图 表示 将 操作 从 循环 前 面 移 至 分 支 指令 之 后 以 及 初始 化 块 之 中 


采用 这 些 技术 的 科学 计算 专用 计算 机 的 性 能 按 megaflops 或 Mflops 度量 , 这 一 单位 表示 每 
秒 百 万 次 浮 点 运算 (Million FLoating-point OPerations per Second)。 对 于 以 下 代码 片段 所 示 的 循 
环 (其 中 除 变 量 i 之 外 ， 所 有 变量 均 声 明 为 REAL), 一 台 时 钟 周期 时 间 为 10 秒 的 向 量 处 理 器 
应 能 取得 接近 200 Mflops 的 平均 处 理 速 率 : 

FOR i := 1 TO 100 DO 

afi] := b[i] * c[i] +k 

END 
向 量化 的 编译 程序 将 展开 整个 循环 ， 代 之 以 一 个 或 两 个 向 量 操 作 序 列 〈 取 决 于 处 理 器 的 向 量 长 
度 )。 尽 管 不 同 处 理 器 的 细节 会 有 很 大 差异 ， 这 一 操作 序列 基本 上 形 如 : 

(1) 开始 将 b 装 入 向 量 B 
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(2) 开始 将 e BARB C 

(3) 将 K 装 入 标量 寄存 器 KK 

(4) 开始 向 量 乘法 Di := B; * C; 

(5) 开始 向 量 与 标量 求 和 A; := Di + K 

(6) 开始 将 向 量 A 存储 到 a 

在 乘法 可 以 开始 执行 之 前 , 必须 先 完成 从 内 存 取向 量 B 和 C 第 一 个 元 素 的 操作 。 如 有 可 能 ， 
一 个 好 的 编译 程序 将 在 那 段 时 间 安 排 其 他 的 处 理 ; 如 果 一 个 循环 必须 划分 为 在 两 个 或 多 个 向 量 
片段 上 执行 ， 那 么 循环 执行 的 延续 可 能 是 一 个 主要 的 候选 者 。 上 例 中 ， 只 有 经 过 车 于 时 钟 后 乘 
法 的 第 一 个 乘积 项 产生 了 结果 ， 向 量 求 和 操作 才 可 以 开始 执行 ， 并 且 在 求 和 完成 之 前 ， 不 可 以 
存储 计算 结果 。 但 一 旦 所 有 的 向 量 操作 已 启动 (假设 不 存在 内 存 计 时 的 冲突 )， 在 每 一 时 钟 周 
期 均 可 存储 一 个 依次 产生 的 结果 元 素 ， 如 图 9-7 中 的 抽象 计时 图 所 示 。 此 外 ， 无 需 程 序 的 进 一 
步 关 注 , 整个 向 量 操作 就 会 继续 执行 , 从 而 只 要 处 理 器 设施 可 用 并 且 还 有 无 关 的 操作 需要 执行 ， 
计算 机 可 继续 执行 其 他 任务 。 
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图 9-7 向量 处 理 器 对 ali] := b[i] * cli] + k 的 操作 


编译 向 量 代码 同时 涉及 流水 线 处 理 器 调度 和 循环 展开 这 两 个 问题 ， 并 摊 和 了 一 些 特殊 情况 
的 指令 选择 问题 。 例 如 ， 一 个 向 量 处 理 器 有 一 个 部 件 将 一 个 标量 累加 到 向 量 之 积 ， 且 不 会 有 额 
外 的 时 间 延 迟 ， 此 时 就 不 需要 计算 中 间 向 量 结果 D;， 只 需 将 整个 由 三 个 操作 数组 成 的 “ 积 ” 与 
“和 ”直接 定向 到 结果 数组 中 。 大 多 数 向 量 处 理 器 能 够 计算 单个 标量 结果 〈 称 为 约 简 变 量 )， 例 
如 向 量 操 作 数 的 元 素 之 和 或 之 积 ， 但 关于 如 何 求 值 的 限制 则 每 种 机 器 会 有 不 同 。 每 一 个 向 量 可 
处 理 一 个 位 于 连续 内 存 位 置 的 数组 中 的 元 素 ， 有 些 可 接受 大 于 1 的 跨 距 〈 即 向 量 元 素 之 间 的 地 
址 增 量 )， 因 而 对 于 一 种 有 更 多 限制 的 机 器 ， 编 译 程序 必须 以 某 一 其 他 方式 适应 多 维 数组 的 按 
列 《〈 即 非 连续 的 ) 引用 。 即 便 有 可 能 采用 一 个 更 大 的 跨 距 ， 如 果 跨 距 是 内 存 横 数目 的 倍数 ， 将 
地 址 分 布 到 内 存 槽 也 可 能 导致 冲突 和 性 能 下 降 。 一 个 特别 聪明 的 编译 程序 可 能 能 够 在 较 低 端的 
下 标 范围 插入 一 些 哑 元 数组 元 素 以 避免 这 一 问题 。 因 而 ， 如 果 程 序 员 声明 了 一 个 变量 的 类 型 是 
ARRAY [1 .. k, 1 .. 64] OF REAL, 编译 程序 可 能 会 留意 到 内 层 的 下 标 范围 是 8 个 内 
存 槽 的 倍数 ， 并 且 好 像 范围 为 1 .. es 那样 来 编译 它 〈 在 计算 中 直接 忽略 多 出 的 元 素 )。 如 果 
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程序 中 不 存在 内 循环 从 第 一 个 下 标 开始 遍历 整个 数组 的 所 有 下 标 ， 这 一 优化 不 会 产生 任何 作 
Hi. 并 且 如 果 存 在 对 角 引 用 例如 在 含 a[i，j1 的 同一 循环 中 有 a[i - 1，j - 1] )， 则 实 
际 上 还 会 产生 反作用 。 

向 量化 编译 程序 通常 寻找 机 会 将 内 层 FOR 循环 转换 为 向 量 代码 , 只 要 循环 中 所 有 对 循环 出 
口 处 仍 活 跃 的 变量 的 赋值 是 由 下 标 指定 的 数组 元 素 或 是 约 简 变 量 ， 并 且 所 有 数组 下 标 是 循环 不 
变 的 或 线性 的 〈 按 一 个 常数 增 量 依次 递增 ， 且 维 数 不 超 过 一 维 )。 即 便 这 些 条 件 都 得 以 满足 ， 
仍 有 几 个 考虑 因素 会 妨碍 向 量化 ， 例 如 数组 元 素 求 值 过 程 中 的 次 序 依 赖 关 系 。 其 中 一 种 依赖 关 
系 称 为 “递归 ”( 尽 管 这 与 过 程 的 递归 没有 关系 )， 指 有 一 些 数组 元 素 在 循环 中 计算 ， 但 在 循环 
后 续 迭 代 的 某 些 部 分 又 再 使 用 这 些 元 素 ,例如 gs[i] := s[i - 1] * k。 在 许多 情况 下 ， 编 
译 程 序 可 用 一 个 临时 的 标量 持久 循环 变量 取代 在 下 一 次 迭代 中 将 使 用 的 数组 元 素 :t :=t*k; 
s[i] := t; 但 在 更 复杂 的 情况 下 ， 检 测 这 样 的 机 会 需要 更 细致 的 数据 流 分 析 。 当 递归 横 跨 
多 次 和 迭代 时 ， 编 译 程序 更 加 难以 执行 正确 的 动作 。 当 数组 下 标 由 表达 式 求 值 ， 且 其 值 在 编译 时 
无 法 知道 的 情况 下 ， 编 译 程序 判断 是 否 可 能 是 递归 的 负担 也 加 重 。 例 如 ， 在 以 下 循环 中 ， 

FOR i :- n TO m DO 

ali] := a[i + j] 

END 
如 果 变 量 j 的 范围 分 析 无 法 确定 其 值 可 否 为 负数 ， 那 么 编译 程序 就 不 可 假设 该 循环 不 是 递 
His. 

许多 循环 用 一 条 条 件 语 名 限定 循环 中 的 某 些 计算 ， 该 条 件 语 句 基 于 的 计算 结果 要 么 来 自 循 
环 之 中 ， 要 么 来 自 循环 之 外 。 条 件 语 名 分支 无 法 向 量化 ， 但 处 理 器 架构 设计 人 员 早 已 任 借 自己 
的 创造 能 力 ， 给 出 了 可 取得 相同 计算 结果 的 可 向 量化 方案 。 编 译 程序 为 实现 同一 目的 ， 也 有 若 
干 步 又 须 执 行 。 本 书 之 前 已 讨论 过 循环 开关 外 提 ， 作 为 循环 不 变 条 件 测试 的 一 种 优化 方法 ， 它 
与 这 里 讨论 的 问题 关系 密切 。 对 循环 控制 变量 的 测试 也 可 分 解 到 循环 之 外 。 如 果 一 个 数组 中 有 
单个 元 素 的 值 受 保护 ， 而 所 有 其 他 元 素 的 值 均 被 循环 中 的 计算 结果 取代 ， 且 受 保护 元 素 的 下 标 
是 循环 不 变 的 ， 此 时 更 简单 的 方法 是 在 进入 循环 之 前 直接 保存 这 个 元 素 ， 然 后 在 循环 体 无 条 件 
地 替换 了 所 有 元 素 之 后 ， 再 恢复 该 元 素 。 类 似 地 ， 将 循环 控制 变量 的 范围 测试 划分 为 若干 更 
短小 的 循环 也 是 合算 的 ， 每 一 循环 对 应 一 个 完整 的 子 界 ， 并 且 每 一 循环 包含 该 子 界 的 无 条 件 
代码 。 

在 向 量 处 理 器 中 ， 处 理 条 件 语句 的 硬件 支持 通常 以 某 种 方式 禁止 将 一 个 结果 赋值 给 一 个 向 
量 元 素 ， 只 要 另 一 向 量 中 对 应 的 值 满足 某 一 条 件 。 控 制 向 量 可 能 是 一 个 简单 的 位 向 量 ， 其 中 的 
每 一 个 位 对 应 向 量 中 的 每 一 元 素 ， 它 也 可 能 是 另 一 数据 向 量 的 符号 或 0 测试 。 将 循环 中 的 一 条 
条 件 语 句 正确 地 转换 为 向 量化 的 条 件 赋值 语句 ， 需 要 仔细 地 分 析 各 种 不 同 的 特殊 情况 ， 但 所 用 
分 析 技术 并 未 超出 本 书 讨论 的 技术 ， 尽 管 稍微 超出 这 里 的 论述 范围 。 注 意 ， 只 要 能 令 更 多 的 计 
算 被 向 量化 ， 编 译 程序 设计 人 员 应 可 自由 地 为 中 间 结 果 分 配 一 个 向 量 临 时 变量 (正如 图 9-7 例 
子 中 的 做 法 )， 即 便 在 源 代码 中 或 按 传统 思维 方式 会 想到 使 用 一 个 标量 值 。 由 编译 程序 分 配 的 
向 量 临 时 变量 ， 以 及 程序 员 声 明 的 那些 在 循环 出 口 处 不 活跃 的 数组 ， 只 需 单独 保存 在 计算 机 的 
向 量 寄存 器 中 即 是 安全 的 ， 从 来 不 用 存储 到 主 存 中 。 除 了 初始 化 时 间 和 单个 向 量化 结果 的 传播 
延迟 ， 链 接 到 同一 计算 的 额外 向 量 操作 本 质 上 是 无 开销 的 ， 并 且 只 会 增加 有 效 的 Mflops。 
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因而 ， 在 如 下 源 程序 的 循环 例子 中 ， 


FOR i := 1 TO n DO 
x := a[i] * b[il; 
IF x « 1.0 THEN 
r[i] := b[i] / cli} 
ELSE 
r[i] := SIN(b[i]) - x 
END 





END 
一 个 谨慎 的 编译 程序 可 能 无 条 件 地 将 表达 式 x[il := ali] * bli], tli] :=bril / cli] 
和 sril := SIN(b[i])， 以 及 复合 值 q[i] := x[i] ~ 1.0 和 fri] := SIN(b[4i]) - 
x[i] 的 求 值 结果 保存 到 向 量 临 时 变量 中 。 最 后 对 向 量 z[i] 的 赋值 则 可 利用 一 条 基于 afi] 符 
号 的 条 件 语句 限制 ， 在 t[i] 和 [i] 之 间作 出 选择 。 

注意 ， 向 量化 的 数学 库 函 数 一 般 返回 一 个 完整 的 向 量 作为 函数 的 值 ， 其 时 间 开 销 是 花费 在 
函数 结果 的 求 值 时 间 ， 再 加 上 向 量 中 元 素 个 数 的 一 个 小 倍数 (可 能 是 每 元 素 1 个 或 2 个 时 钟 周 
期 这 样 的 小 数 上 月 )。 因 而 ， 即 便 该 循环 中 只 有 相当 低 密 度 的 不 成 立 条 件 的 求 值 ， 丢 弃 无 用 的 三 
角 结 果 在 性 能 上 仍 将 优 于 每 次 有 需要 时 分 别 调用 库 函 数 获得 单个 标量 结果 。 

檬 套 的 循环 为 向 量 处 理 器 硬件 提供 了 另 一 些 优化 的 机 会 。 当 内 层 下 标 范围 完全 横 跨 一 个 多 
维 数组 时 ， 该 多 维 数组 可 以 线性 化 ， 从 而 向 量 处 理 器 硬件 的 每 一 向 量 配置 都 有 更 多 数目 的 元 素 
可 以 处 理 。 然而， 当 复 合 的 线性 数组 超过 向 量 处 理 器 硬件 的 长 度 时 , 这 种 做 法 的 好 处 就 会 变 小 。 
当 对 跨 距 的 考虑 或 求 值 次 序 依 赖 关 系 导 致 内 循环 的 向 量化 不 可 行 时 ， 可 尝试 颠倒 一 对 嵌 套 的 循 
环 ， 其 结果 有 可 能 是 新 的 内 循环 可 被 向 量化 。 当 外 层 控制 变量 的 范围 远 远 大 于 内 循环 的 控制 变 
量 范围 时 ， 也 可 能 希望 反 转 一 对 媒 套 的 循环 。 
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9.6.1 ”代码 优化 的 分 类 


习惯 上 ， 将 代码 优化 的 考虑 因素 划分 为 两 大 类 : 一 类 是 机 器 无 关 的 优化 ， 可 在 抽象 语法 树 
上 执行 而 不 必 考 虑 目标 机 器 硬件 ， 另 一 类 是 机 器 有 关 的 优化 ， 需 要 十 分 熟悉 目标 机 器 ， 这 些 知 
识 既 要 用 于 实现 ， 甚 至 也 要 用 于 提出 需求 ， 并 且 还 常常 用 于 中 间 代 码 的 低级 四 元 式 表示 或 最 终 
的 目标 代码 本 身 。 在 考虑 常量 折 八 、 循 环 不 变 代码 移动 这 类 明显 的 机 器 无 关 优化 时 ， 我 们 所 持 
的 观点 往往 不 太 常 见 ， 即 大 多 数 优 化 技术 或 多 或 少 地 依赖 于 目标 机 器 硬件 的 体系 结构 ， 因 而 我 
们 发 现 这 一 区 别 并 没有 太 大 作用 。 例 如 ， 尽 管 将 整个 循环 不 变 语句 移出 循环 之 外 几乎 肯定 是 有 
好 处 的 ， 但 提炼 出 部 分 表达 式 加 以 移动 的 价值 ， 则 在 很 大 程度 上 取决 于 保存 和 恢复 中 间 结 果 与 
直接 求 值 的 开销 相 比 较 的 相对 开销 。 根 据 可 用 于 保存 中 间 结 果 值 的 害 存 器 数目 ， 当 无 法 使 用 寄 
存 器 时 从 内 存 重 新 装 入 中 间 结 果 值 的 额外 时 间 ， 以 及 待 处 理 的 表达 式 的 复杂 程度 ， 不 同 机 器 上 
的 决策 点 可 能 会 有 相当 大 的 不 同 。 

参照 本 章 与 第 8 章 的 主要 区 别 ， 可 明显 看 出 合理 划分 优化 技术 种 类 的 另 一 尺度 ， 即 一 些 优 
化 技术 比 另 一 些 技术 更 容易 采用 一 种 文法 驱动 的 实现 。 尽 管 按 这 一 尺度 划分 会 有 很 大 的 区 别 ， 
但 应 指出 的 是 ， 类 似 于 机 器 有 关 或 无 关 的 优化 ， 这 里 更 像 是 一 个 连续 体 ， 而 不 是 简单 地 一 分 为 
二 的 “有 ”或 者 “没有 ”。 第 8 章 讨论 的 右 移动 提升 在 树 变换 文法 中 相当 笨拙 ， 但 并 不 是 不 可 


能 的 ; 本 章 介 绍 的 循环 范围 分 析 比 右 移动 提升 更 容易 实现 为 一 个 TAG, 但 又 不 如 常量 折 警 或 消 
BED 

ARRIR RR SA R ET RE RE ERIE EL A BUR 或 一 条 时 间 线 。 这 
同样 只是 更 各 有 起 而 已， 而 并 不 是 更 加 实用 ， 因 为 许多 优化 为 黄 他 优化 提供 了 机 会 ， 反 过 来 双 
可 能 将 机 会 传 回 给 最 初 的 优化 程序 。 例 如 ， 循 环 不 变 代码 移动 要 求 先 执 行 常量 表达 式 分 析 《〈 常 
量 折 又 的 一 部 分 )， 移 出 一 大 块 代码 后 ， 循 环 体 可 能 满足 展开 的 条 件 ， 而 展开 又 再 次 为 常量 折 
又 提供 了 机 会 。 尽 管 如 此 ， 某 些 优 化 仍 应 在 编译 过 程 的 早期 发 挥 作用 ， 而 其 他 优化 则 有 必要 在 
后 期 执行 。 回 代 那 些 仅 被 调用 一 次 的 过 程 应 尽早 执行 ， 因 为 这 一 变换 的 主要 优势 在 于 它 为 其 他 
优化 〈 辟 如 常量 折合 和 消除 公共 子 表达 式 ) 开辟 了 机 遇 。 另 一 方面 ， 寄 存 器 选择 有 必要 作为 最 
后 的 分 析 工 作 之 一 来 执行 ， 因 为 任何 其 他 的 优化 都 很 容易 导致 其 决策 无 效 。 
9.6.2 LULA 
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本 完整 的 教材 ， 尽 管 该 术语 实际 上 表示 后 期 的 各 种 代码 修补 ， 这 些 修补 主要 用 于 在 代码 生成 阶 
段 修正 一 些 懒惰 或 倒霉 的 选择 。 经 典 的 窥 孔 优化 通常 包括 寄存 器 装 入 和 存储 之 间 的 复写 传播 、 
算术 运算 符 的 强度 削弱 和 内 存 访问 的 强度 削弱 《〈 即 寻 址 模式 的 选择 ) 以 及 分 支 链接 等 。 其 中 ， 
如 果实 现 了 类 似 本 书 所 述 的 基于 文法 的 优化 程序 ， 则 只 有 分 支 链接 是 可 能 有 需要 的 。 随 着 小 型 
计算 机 的 内 存 不 断 扩大 以 及 对 执行 速度 的 不 断 强调 ,代码 大 小 与 执行 速度 之 间 的 折 中 越 来 越 倾 
向 于 执行 速度 而 不 是 代码 大 小 ， 因 而 除了 最 小 的 微 控制 器 之 外 ， 其 余 计算 机 均 消 除了 对 窥 孔 优 
化 的 最 后 需求 。 

窥 孔 优化 背后 的 思想 是 在 代码 生成 程序 完成 其 工作 后 ， 在 生成 的 代码 之 上 执行 另 一 次 遍 
历 ， 可 能 能 够 找到 机 会 进行 一 些小 改进 ， 其 方法 是 每 次 仅 观察 一 小 段 代 码 ( 正 如 从 钥匙 孔 中 突 
视 代 码 ， 由 此 得 名 )。 例 如 ， 一 个 寄存 器 存储 操作 如 果 后 接 一 个 装 入 到 相同 寄存 器 的 操作 ， 则 
可 修正 为 将 元 余 的 装 入 操作 消除 ; 装 入 常量 0 可 以 代 之 以 寄存 器 清除 指令 ; 诸如 此 类 。 我 们 通 
常 推荐 在 代码 生成 之 时 执行 这 些 蔡 换 ， 或 甚至 像 树 变换 这 样 的 更 早 时 候 ， 如 此 则 没有 什么 必要 
回 到 代码 文件 来 修正 它们 。 此 外 ， 代 码 修正 会 占用 更 多 的 处 理 器 时 间 ， 因 为 被 改变 的 代码 上 的 
分 支 也 需要 作 相 应 的 修正 。 


在 编译 的 代码 生成 阶段 ， 从 优化 程序 接受 的 中 间 代 码 被 转换 为 机 器 语言 代码 。 代 码 生成 非常 依赖 于 
机 器 ， 因 而 本 章 讨论 了 不 同 的 目标 机 器 体系 结构 , 包括 传统 的 计算 机 以 及 RISC, 流水 线 和 向 量 处 理 器 等 。 
本 章 讨论 了 非常 规 的 计算 机 体系 结 梅 中 出 现 的 两 大 类 优化 问题 ， 这 些 问题 会 影响 到 编译 程序 的 设计 : (1) 
内 存 与 寄存 器 分 配 问题 ; 《2) 循环 分 析 问 题 。 循 环 优化 问题 在 很 大 程度 上 与 机 器 的 体系 结构 无 关 。 存 储 分 
配 和 循环 分 析 还 涉及 各 种 各 样 的 子 问题 。 


CSE Common Subexpression Elimination， 消 除 公共 子 表达 式 。 
DAG Directed Acyclic Graph， 有 向 无 环 图 。 
PLV Persistent Loop Variable， 持 久 循环 变量 。 


* 
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code generation〈 代 码 生 成 ) ”产生 可 执行 的 代码 ， 其 语义 与 输入 源 程序 相同 。 
computer pipeline (计算 机 流水 线 ) ” 它 用 于 执行 一 条 指令 的 时 间 被 划分 为 离散 的 时 间 段 ， 并 将 这 些 时 
间 段 安排 到 硬件 的 顺序 部 件 中 。 
induction variable (归纳 变量 ) ”任意 普通 变量 或 临时 变量 ， 其 值 与 循环 的 控制 变量 保持 线性 关系 。 
pipelined branch“ 流 水 线 分 支 ) ”在 分 支 指令 生效 之 前 ， 计 算 机 开始 执行 分 支 指令 之 后 的 下 一 指令 。 
registers (寄存 器 ) ”少量 非常 快速 、 且 易于 访问 的 内 存 。 
address register (地 址 寄存 器 ) 用 于 保存 主 存 的 地 址 。 
data register (数据 寄存 器 〉 ”用 于 保存 中 间 计 算 结果 的 值 。 
vector processor 向量 处 理 器 〉 该 处 理 器 的 设计 是 将 单条 或 少量 指令 用 于 一 个 值 的 序列 ,这些 值 要 么 规 
则 地 分 布 在 内 存 中 ， 要 么 预先 装 入 到 向 量 寄存 器 中 ; 产生 的 结果 存放 在 另 一 内 存 数 组 或 向 量 寄存 器 中 。 
virtual memory (虚拟 内 存 ) “用 于 模拟 和 扩展 主 存 的 磁盘 文件 ， 但 是 速度 较 慢 。 


.使 用 代码 清单 9.3 所 示 的 技术 ， 将 下 列 待 编译 的 每 一 条 语句 从 BSM 零 地 址 代码 转换 为 寄存 器 机 器 代码 。 


(aja :- c * (lae b - c) 
(D a := (a + b) *c- 3 
(cha : c * (a- c) + d * (a + b) 
(da := (a + b) * (a - b) 


2. 不 要 直接 从 零 地 址 代码 转换 为 一 个 虚构 机 器 的 代码 ， 而 是 (在 纸 上 ) 模拟 以 下 语句 的 代码 生成 程序 并 
给 出 单 地 址 代码 ， 其 中 消除 了 寄存 器 间接 装 入 和 存储 指令 (用 直接 装 入 和 存储 指令 取代 这 些 指 令 相 应 
的 地 址 装 入 指令 )。 

(a) 代码 清单 9.3 

(b) 练习 1 的 (a) 小 题 
Cc) 练习 1 的 Cb) 小 题 
(d) 练习 1 的 (d) 小 题 

3. 使 用 图 9-2 所 示 的 技术 ， 在 编译 时 的 栈 中 模拟 练习 1 每 一 小 题 的 代码 执行 

4. 使 用 图 9-3 所 示 的 技术 ， 给 出 虚拟 栈 中 的 内 存 到 内 存 代 码 ， 模 拟 执 行 练习 1 中 赋值 语句 的 算术 运算 指 
令 。 你 的 答案 应 足够 详尽 ， 并 明确 指出 虚拟 栈 中 每 一 变量 的 值 。 

5. 证 明 在 一 棵 结构 化 程序 树 中 ， 一 次 遍历 的 循环 分 析 是 安全 且 充 分 的 “一 遍 ” 循 环 分 析 是 安全 的 ， 如 
果 认 定 所 有 循环 变量 的 范围 不 会 小 于 它们 真正 运行 时 的 值 范 围 ， 它 是 充分 的 ， 如 果 极 少 认定 循环 变量 
的 范围 远 远 大 于 它们 真正 运行 时 的 范围 。 提 示 : 区 别 在 循环 入 口 处 活跃 的 持久 循环 变量 和 入 口 处 不 活 
跃 的 持久 循环 变量 。 

6. 给 出 一 个 分 支 寻 址 决策 最 优 算法 的 伪 码 形式 。 

7. 证 明 练习 6 的 最 优 算法 的 复杂 度 为 n, HP n 是 分 支 的 数目 。 

8. 一 个 特殊 的 Pascal 编译 程序 记 住 一 个 寄存 器 中 装 入 了 哪个 变量 或 地 址 ， 有 时 可 避免 重新 装 入 这 一 个 值 。 
该 编译 程序 为 每 一 寄存 器 指派 了 一 个 值 函数 ， 该 函数 估算 寄存 器 中 的 内 容 被 再 次 引用 的 概率 [Jacobi， 
1982, 第 12 页 ]。 试 为 该 编译 程序 提出 一 种 改进 的 优化 算法 。 提 示 : 考虑 如 何 才 可 避免 寄存 器 的 存储 
操作 ;还 要 引入 一 种 技术 ， 用 于 取代 寄存 器 编号 的 随机 赋值 。 

9. 什么 优化 技术 可 用 于 处 理 抽象 数据 类 型 ? 

10. 何 种 形式 的 程序 统计 分 析 可 用 于 在 编译 时 决定 不 压缩 一 个 集合 变量 
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指出 下 列 陈 述 是 否 正 确 。 
1. 一 个 程序 的 大 多 数 执 行 时 间 花 费 在 IO 例 程 和 外 循环 。 
2， 循 环 展开 仪 限 于 未 指定 迭代 次 数 的 短 循环 。 
3. 如 下 形式 的 WEILE 循环 可 部 分 地 展开 : 
WHILE BooleanCondition DO 


statement 
END 


4. 对 于 恰好 横 跨 一 个 多 维 数组 的 一 系列 嵌 套 循环 ， 展 开 其 外 循环 等 价 于 将 数组 声明 重新 解释 为 一 个 一 维 
数组 。 

5. 寄存 器 分 配 本 质 上 是 一 个 图 着 色 问 题 。 

6. 图 着 色 充分 描述 了 将 寄存 器 分 配给 表达 式 求 值 的 问题 。 

7. 一 个 不 含 数据 流 分 析 的 简单 “一遍” 编译 程序 ， 可 通过 在 寄存 器 中 模拟 表达 式 栈 ， 为 一 个 多 寄存 器 机 
器 完成 合理 的 代码 生成 。 

8. 一 个 向 量化 编译 程序 寻找 机 会 将 内 层 FOR 循环 转换 为 向 量 代码 , 只 要 循环 中 所 有 对 循环 出 口 处 仍 活跃 
的 变量 的 赋值 是 由 下 标 指定 的 数组 元 素 或 是 约 简 变量 ， 并 且 所 有 数组 下 标 是 循环 不 变 的 或 线性 的 。 

9. 以 下 7 个 结 点 的 树 片段 生成 单条 机 器 指令 : 


MOV b, a 





编译 程序 实验 项 目 


1. 为 你 的 编译 程序 添加 循环 优化 。 
2. 选择 一 种 你 熟悉 的 向 量 计算 机 ， 修 改 你 的 编译 程序 ， 为 该 计算 机 生成 向 量化 的 代码 。 
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ABBE: 

e 考虑 应 用 式 语言 的 编译 相关 问题 

e 处 理 将 函数 递归 转 抱 为 循环 结构 的 间 题 

。 为 Itty Bitty 栈 机 器 开发 一 个 应 用 式 程 序 设计 语言 (Tiny Scheme) 的 实现 
e 探讨 与 基于 TAG 的 “编译 程序 -编译 程序 ”实现 相关 的 课题 

e 将 变换 属性 文法 看 作 一 种 用 于 定义 编译 程序 的 非 过 程式 程序 设计 语言 
© 介绍 TAG 的 四 个 组 成 部 分 

* 将 TAG 看 作 一 种 不 含 变量 或 赋值 语句 的 数据 流 语言 

© 思考 由 一 个 TAG 编译 程序 构造 的 有 穷 状态 自动 机 


10.1 简介 


本 书 的 前 9 章 仅 讨论 了 诸如 Modula-2 等 过 程式 程序 设计 语言 的 编译 问题 。 这 些 技术 还 能 以 
同样 的 方式 应 用 到 大 多 数 常 见 的 程序 设计 语言 ， 故 没有 必要 为 教学 目的 再 引入 其 他 语言 。 术 章 将 
关注 一 些 特殊 的 问题 , 这 些 问 题 关 系 到 如 何 将 其 他 类 别 的 程序 设计 语言 编译 为 高 效 的 本 地 机 器 代 
码 。 编 译 技术 有 趣 且 可 发 挥 作用 的 非 过 程式 语言 有 三 大 类 ， 即 类 似 于 Lisp 或 由 其 派生 语言 的 函 
数 式 或 应 用 式 语言 、 所 谓 “ 第 四 代 ” 数 据 库 语 言 以 及 与 Prolog 语言 有关 的 不 确定 推理 语言 。 本 章 
仅 考 虑 其 中 一 种 语言 的 扩展 例子 ， 揭 示 编 译 程序 设计 原理 是 如 何 应 用 到 这 类 语言 的 。 

尽管 普遍 认为 面向 对 象 程序 设计 (OOP) 是 程序 设计 方法 学 的 一 个 重大 进展 ， 但 这 类 语言 
并 未 给 编译 程序 设计 人 员 带 来 特别 的 挑战 。 将 信息 封装 在 “对 象 ” 之 中 只 是 简单 扩展 了 本 书 第 
5 章 已 讨论 过 的 作用 域 规则 的 编译 单元 ， 相 当 于 在 Modula-2 语言 中 管理 多 个 模块 。 对 象 类 是 包 
含 了 过 程 指 针 〈( 类 中 的 方法 ) 作为 字段 的 记录 类 型 ， 在 符号 表 中 ， 这 些 记录 定义 所 附带 的 信息 
包括 了 过 程 的 引用 ， 它 们 指向 的 过 程 将 用 于 初始 化 该 作用 域 级 别 的 过 程 指针 。 单 继承 意味 着 记 
录 类 型 在 一 个 新 的 作用 域 中 是 可 扩展 的 ， 当 一 个 类 定义 为 另 一 个 类 的 子 类 时 ， 在 添加 新 的 字段 
之 前 会 将 所 有 的 字段 定义 导入 新 的 记录 定义 中 。 重 定义 一 个 方法 意味 着 当 该 类 的 一 个 对 象 被 实 
例 化 时 〈 即 创建 一 个 该 记录 类 型 的 动态 变量 )， 一 个 局 部 过 程 可 能 替换 父 类 中 定义 的 一 个 过 程 。 
多 态 性 是 指 一 个 过 程 〈 或 运算 符 ) 能 接受 的 参数 可 以 是 预定 义 集合 中 的 任意 类 型 。Modula-2 语 
言 中 运算 符 “+” 是 多 态 的 ， 因 为 其 操作 数 可 能 是 INTEGER, REAL 或 集合 ， 我 们 很 容易 在 属 
性 文法 中 实现 这 种 多 态 性 。 多 态 性 通常 被 认为 是 OOP 的 一 个 显著 特点 ， 但 往往 仅 限于 OOP 中 
的 一 个 方法 能 接受 该 方法 所 在 类 的 继承 链 中 的 参数 。 因 而 OOP 语言 的 实现 与 实现 Modula-2 语 
言 的 设计 复杂 度 几 乎 相同 ， 本 书 除 此 段 简短 评述 之 外 ， 不 再 专门 著述 这 些 问 题 。 

最 后 ， 所 有 编译 原理 教材 都 会 讨论 编译 程序 的 自动 构造 技术 。 本 书 所 介绍 的 许多 技术 均 使 
用 了 变换 属性 文法 (TAG) 作为 实现 的 载体 。 尽管 第 5 章 介 绍 了 一 种 确定 的 翻译 方法 可 将 一 个 
TAG 转换 为 过 程式 代码 ， 但 文法 在 本 质 上 并 不 是 过 程式 的 。 在 本 章 、 同 时 也 是 本 书 的 结尾 ， 还 
讨论 了 基于 TAG 的 “编译 程序 一 编译 程序 ”的 实现 问题 。 
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10.2 应 用 式 语言 的 编译 


1958 Æ, John McCarthy 提出 Lisp 程序 设计 语言 ， 并 作为 麻 省 理工 学 院 (MIT) 人 工 智能 
研究 项 目的 一 部 分 [McCarthy, 1981]。Lisp 是 一 种 应 用 式 语言 ， 它 依靠 对 函数 的 应 用 ， 而 没有 
赋值 语句 。 编 译 一 种 应 用 式 语言 本 质 上 类 似 于 编译 一 种 过 程式 语言 的 表达 式 求 值 和 递归 函数 ， 
但 其 中 有 一 个 重要 的 区 别 。 不 同 于 传统 语言 ，Lisp 及 其 派生 语言 允许 直接 操纵 程序 代码 ， 这 就 
产生 了 “ 延 拓 和 ”(continuation〉 或 部 分 求 值 函 数 ， 它 们 可 以 像 数 据 那样 被 操纵 。 在 交互 性 较 强 
的 程序 开发 环境 中 , 通常 推荐 使 用 增 量 编译 程序 , 为 用 户 修改 可 执行 代码 提供 更 短 的 周转 时 间 ; 
如 果 一 种 语言 允许 或 鼓励 动态 地 修改 代码 ， 则 对 编译 程序 也 会 有 类 似 的 需求 ， 因 为 新 的 (未 编 
PERO) 代码 可 在 运行 时 创建 。 这 类 系统 中 的 编译 程序 必须 作为 运行 环境 的 一 部 分 。 

本 书 第 1 章 揭示 了 编译 程序 与 解释 程序 的 区 别 。 编 译 程序 将 源 代码 翻译 为 另 一 种 语言 ， 通 
常 是 目标 计算 机 的 机 器 语言 ， 但 并 不 运行 该 程序 ， 解 释 程序 可 能 根本 不 作 翻 译 ， 而 只 是 直接 地 
执行 源 程序 中 的 语义 动作 。 在 一 个 交互 式 系统 中 ， 语 言 的 使 用 者 看 到 的 差别 会 少 一 些 ， 因 为 增 
量 编译 程序 可 具有 与 解释 程序 相同 的 响应 能 力 ， 同 时 取得 与 编译 程序 相同 的 某 些 性 能 优势 。 

编译 时 对 函数 的 部 分 求 值 主要 是 将 常量 折 辣 变换 应 用 到 程序 代码 中 。 鉴于 越 来 越 强调 函数 的 
应 用 ; 我 们 将 研究 如 何 从 被 调用 函数 的 某 一 类 调用 中 对 常量 参数 进行 折 允 ,为 每 一 个 不 同 的 常量 
值 创建 一 个 参数 更 少 的 函数 。 将 一 个 或 多 个 参数 折 鳃 为 函数 定义 ， 从 而 只 需 提供 剩余 的 参数 即 可 
调用 这 些 函数 , 这 一 过 程 称 为 柯 里 化 (currying); 这 一 术语 以 逻辑 学 家 Haskell Curry 的 名 字 命 名 ， 
他 改进 了 Moses Schónfinkel 的 最 初 想法 [Curry, 1968; Schónfinkel, 1924]. 在 编译 程序 中 ， 如 果 一 
个 函数 的 大 多 数 调 用 都 使 用 了 常量 作为 实 参 ， 最 有 价值 的 做 法 是 让 其 形 参 接受 较 少 数目 的 实 参 
E. FERRI SU GTB) 的 每 一 个 函数 副本 中 , 新 的 常量 参数 往往 还 会 产生 另外 的 常量 折 秋 机 会 。 
这 一 优化 技术 也 可 用 于 传统 语言 的 编译 程序 ， 但 其 优势 就 远 不 如 用 于 函数 式 语言 。 

在 Lis 语言 的 早期 实现 中 ， 函 数 定 义 中 的 非 局 部 变量 (也 称 自由 变量 ) 采用 动态 作用 域 。 
在 纯 应 用 式 语言 中 不 存在 赋值 语句 ， 因 而 除 参 数 之 外 不 存在 其 他 局 部 变量 ， 一 个 对 非 参数 的 标 
识 符 的 引用 ， 将 指向 调用 链 中 该 名 字 的 最 近 的 定义 ， 而 不 是 参照 源 程序 文本 中 的 位 置 。 一 个 自 
由 变量 引用 的 语义 在 很 大 程度 上 依赖 于 该 函数 的 调用 者 。 与 此 相反 , Modula-2 和 大 多 数 块 结构 
的 程序 设计 语言 采用 静态 作用 域 , 一 个 自由 变量 的 语义 仅 依赖 于 源 程序 文本 中 该 函数 所 处 的 位 
置 。 尽 管 动态 作用 域 貌 似 更 强大 一 些 ， 但 在 实践 中 却 是 得 不 偿 失 。 如 果 采 用 静态 作用 域 ， 编 译 
程序 在 编译 时 只 需 几 条 机 器 指令 即 可 将 所 有 自由 变量 链接 到 其 引用 (参阅 第 6 章 关于 Display 
表 的 介绍 )， 而 动态 作用 域 则 要 求 在 运行 时 的 执行 环境 中 保存 并 查找 符号 表 。 随 着 编译 型 Lisp 
语言 及 其 派生 语言 越 来 越 流 行 ， 动 态 作 用 域 已 逐渐 失宠 。 

解释 型 语言 比 编译 型 语言 更 难 实现 的 另 一 常见 特点 是 动态 数据 类 型 。 大 多 数 计 算 机 采用 不 
同 的 硬件 指令 处 理 浮 点 数 和 整数 ， 每 种 数据 类 型 的 大 小 也 不 相同 。 最 高 效 的 机 器 代码 是 由 编译 
程序 根据 待 处 理 的 数据 类 型 选择 了 合适 的 硬件 指令 ， 这 就 要 求 每 一 数据 的 类 型 在 编译 时 是 已 知 
的 。 经 典 的 程序 设计 语言 〈 例 如 FORTRAN F BASIC) 通过 语法 形式 (命名 习惯 ) 区 别 数据 的 
类 型 ， 诸 如 Modula-2 等 大 多 数 现 代 语 言 则 要 求 先 将 变量 声明 为 某 一 特定 的 类 型 ， 并 在 编译 时 
将 这 些 信 息 存 储 到 符号 表 中 ， 供 程序 语义 分 析 和 代码 生成 时 使 用 ， 如 本 书 第 5、6 章 所 述 。 由 
本 在 没有 编译 程序 的 情况 下 Lisp 语言 得 到 长 期 且 广 泛 的 应 用 ， 这 助长 了 Lisp 语言 的 发 展 过 程 
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中 避 开 数据 类 型 声明 的 需求 ， 最 终 导 致 所 有 通 情 达 理 的 编译 程序 不 得 不 处 理 动态 数据 类 型 问 
题 ， 编 译 得 到 的 代码 必须 检查 数据 ， 以 确定 应 用 哪 种 合适 的 算术 运算 硬件 指令 。 采 用 与 消除 范 
围 检查 代码 相同 的 方法 , 利用 充分 的 数据 流 分 析 也 可 消除 一 些 类 型 分 析 代 码 ; 但 值得 怀疑 的 是 ， 
是 否 真 的 有 这 么 多 编译 程序 真正 地 试图 执行 这 类 优化 。 
10.2.1 Lisp 语言 的 一 些 概念 

为 正确 理解 一 种 应 用 式 语 言 的 实现 ， 我 们 需要 熟悉 使 用 该 语言 时 的 一 些 程序 设计 概念 。 对 
于 曾 使 用 过 Lisp 或 其 派生 语言 的 读者 而 言 ,本 小 节 的 介绍 很 容易 理解 ; 但 对 于 无 此 类 经 验 的 程 
序 员 而 言 ， 一 些 最 基本 的 概念 将 有 助 于 对 问题 的 理解 。 

尽管 Lisp 语言 的 名 字 是 从 短语 LISt Processing( 表 处 理 ) 中 抽取 出 来 的 ， 但 Lisp 之 类 的 
语言 的 基本 数据 结构 是 单元 , 即 点 对 。 这 实际 上 是 由 两 个 指向 同一 类 型 的 指针 组 成 的 记录 类 型 ， 
由 此 可 构造 出 任意 的 二 又 树 结构 ,一 个 表 由 沿 右 子 树 向 下 递归 连接 的 点 对 构成 ,如 图 10-1 所 示 。 


C nil 
图 10-1 根据 点 对 构造 一 个 表 (a b c) 

一 个 原子 是 单个 值 ， 通 常 是 一 个 作为 标识 符 的 字符 串 ， 或 是 一 个 数字 。 一 个 点 对 中 的 每 一 
分 量 要 么 指向 另 一 点 对 ， 要 么 表示 一 个 原子 。 表 的 构造 就 是 将 点 对 构造 函数 cons 应 用 到 两 个 
参数 上 ， 这 些 参数 本 身 又 是 一 个 点 对 或 一 个 原子 。 另 两 个 内 置 函数 car A car (分 别 读 作 car 
和 could-er) 分 别 从 一 个 点 对 中 提取 左 子 树 和 右 子 树 。 

表 不 仅 可 用 于 构造 任意 的 数据 结构 ， 还 可 用 于 定义 程序 代码 。 表 (a b e) 解释 为 一 个 程序 
片段 时 ， 是 一 个 函数 的 调用 或 应 用 ， 表 示 将 一 个 名 为 a 的 函数 应 用 到 两 个 参数 b 和 c。 由 于 b 
和 e 本 身 可 能 也 是 表 ， 因 此 程序 可 以 是 相当 复杂 的 。 更 特别 的 是 ， 被 应 用 的 函数 本 身 可 能 是 一 
个 表 , 因而 (至 少 在 一 个 正确 的 Lisp 程序 中 ) 参数 会 被 传递 给 一 个 作为 函数 调用 返回 值 的 函数 。 
这 在 Modula-2 语言 中 也 是 可 能 的 〈 当 一 个 过 程 返回 的 结果 是 一 个 过 程 类 型 时 )， 但 Modula-2 
语言 不 允许 直接 调用 返回 的 过 程 ， 而 要 求 将 它 先 赋值 给 某 个 变量 。 纯 Lisp 语言 没有 赋值 语句 ， 
并 且 对 一 个 程序 表 的 求 值 结 果 是 某 一 表达 式 的 值 。 表 达 式 〈 函 数 的 应 用 ) 被 求 值 ， 其 结果 作为 
参数 再 传递 给 其 他 函数 , 如 此 递归 地 执行 , 直至 整个 程序 表 求 值 完毕 。 最 终 的 结果 通常 打印 ( 显 
示 ) 在 用 户 终端 上 。 

BR car. cdr 和 cons 之 外 ，Lisp 语言 还 有 一 个 内 置 函 数 用 于 创建 一 个 函数 ， 称 之 为 
lambda; 该 名 字 依 据 作为 Lisp 语言 数学 基础 的 演算 命名 。 在 这 里 讨论 的 Lisp 语言 的 派生 语 
言 Scheme F, lambda 接受 两 个 参数 ， 第 一 个 参数 是 用 于 命名 新 函数 的 参数 的 标识 符 表 ， 第 
二 个 参数 是 一 个 表 的 表达 式 〔 通 常 在 其 中 用 到 那些 参数 )。 故 (lambqda (x y) (+ x y)) 是 一 
个 求 值 结果 为 函数 的 表达 式 ， 以 两 个 参数 调用 该 函数 时 ， 它 将 返回 这 两 个 参数 之 和 。 函 数 
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(Lambda (x) x) 是 一 个 恒 等 函 数 ， 即 传递 给 该 函数 任何 参数 都 将 返回 参数 本 身 。 将 参数 传递 
给 一 个 函数 ， 相 当 于 为 函数 体 的 值 指定 了 一 个 名 字 。 据 此 ， 可 将 一 个 恒 等 函 数 的 定义 应 用 到 某 
一 函数 定义 ， 从 而 形成 递归 函数 ， 该 递归 函数 成 为 恒 等 函 数 中 一 个 参数 ， 但 在 此 过 程 中 它 得 到 
了 一 个 名 字 ， 从 而 可 以 调用 其 自身 。 返 回 函数 的 函数 是 一 个 较 难 掌握 的 概念 ， 仅 由 递归 复合 而 
成 。 然 而 一 旦 完全 理解 了 这 一 概念 ， 就 会 发 现 这 个 概念 的 优雅 和 强大 。 . 

其 他 的 内 置 函 数 执行 标准 的 算术 运算 例如 上 述 例 子 中 的 “+”)， 人 允许 一 个 表 不 解释 为 函 
数 调用 就 写 入 程序 中 〈 称 为 “引文 ”以 及 允许 子 表 达 式 的 条 件 求 值 G£) UF Lisp 程序 是 
一 个 阶乘 函数 ， 如 果 其 参数 为 0 则 返回 1， 否 则 用 参数 乘 以 一 次 递归 调用 的 结果 ， 


((lambda(fact) fact) (lambda(n) (if (s n 0) 1 (* (fact(- n 1)))))) 


大 多 数 Lisp 语言 的 派生 语言 还 预定 义 了 若干 函数 ， 这 些 函 数 实际 上 是 基本 和 演算 形式 的 语 
法 扩展 。 其 中 一 些 函 数 表面 上 看 起 来 好 像 赋值 语句 和 语句 序列 ， 但 可 证 明 其 中 的 大 多 数 等 价 于 
和 表达 式 。 例 如 ， 以 下 表 片 段 中 的 函数 define 看 起 来 类 似 一 条 赋值 语句 ， 因 为 它 将 值 3 赋 给 
后 续 表 项 目 中 的 名 字 x: 


. (define(x 3)) (+ x 1) ... 


而 同一 表 片 段 可 等 价 地 写作 一 条 如 下 的 表达 式 ， 
. ((lambda(x) (4x 1)) 3) ... 

10.2.2 #4 

应 用 式 语 言 中 缺少 类 似 WHILE 循环 这 种 执行 次 序 控制 结构 ， 这 意味 着 所 有 和 迭代 必须 通过 
函数 的 递归 来 完成 。 编 译 程 序 当 然 希望 在 可 能 的 情况 下 将 一 个 递归 转 回 一 个 循环 结构 ， 在 传统 
语言 中 也 可 能 有 这 种 优化 ， 但 远 没有 这 么 重要 。 在 尾 递归 的 情况 下 ， 这 种 转换 相当 直接 ， 所 谓 
尾 递 轨 ， 就 是 指 计算 的 最 后 一 步 是 一 个 递归 调用 ， 其 结果 将 不 加 修改 地 返回 给 先前 的 调用 者 。 
为 演示 这 一 概念 ， 考 虑 以 下 阶乘 函数 〈 虽 然 采 用 Modula-2 语言 书写 ， 但 这 段 代码 完全 是 应 用 
式 的 ): 


PROCEDURE fact(n: INTEGER): INTEGER; 
BEGIN 
IF n = 0 THEN 
RETURN 1 
ELSE 
RETURN n * fact(n - 1) 
END 
END fact; 


尽管 上 述 函 数 的 结尾 是 对 函数 自身 的 递归 调用 ， 但 这 并 不 是 计算 的 最 后 一 步 ， 因 为 结果 向 
上 传递 之 前 还 必须 乘 以 了 。 该 函数 不 是 尾 递 归 的 ， 但 可 改写 为 如 下 的 尾 递归 形式 : 


PROCEDURE fact(n: INTEGER): INTEGER; 
PROCEDURE fact2(n, m: INTEGER): INTEGER; 


BEGIN 
IF n = 0 THEN 
RETURN m 
ELSE 


RETURN fact2(n - 1, n * m) 
END 
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END fact2; 
BEGIN (* fact *) 
RETURN fact2(n, 1) 
END fact; 
现在 内 层 函数 fact2 不 加 修改 地 返回 其 自身 的 递归 调用 结果 ， 所 有 乘法 均 已 在 函数 调用 
的 参数 中 完成 ， 而 不 是 在 函数 的 结果 中 。 只 要 将 包含 递归 调用 的 整 行 语句 替换 为 直接 跳 转 到 函 
数 开 头 的 跳 转 语句 ， 就 很 容易 将 这 类 尾 递 归 转 换 为 传统 的 循环 结构 ， 新 的 值 将 直接 取代 当前 的 
参数 ， 而 不 是 将 调用 的 参数 存储 到 一 个 新 的 激活 帧 中 。 编 译 程序 必须 极为 小 心地 避免 当 一 个 参 
数 仍 活跃 时 〈 即 在 所 有 新 的 值 被 计算 出 来 之 前 ) 重 写 该 参数 ， 但 可 将 新 的 值 赋 给 临时 变量 ， 然 
后 应 用 第 8 章 介绍 的 传统 数据 流 分 析 和 复写 传播 技术 消除 不 必要 的 数据 迁移 。 从 源 代码 变换 的 
角度 看 ， 转 换 结果 如 下 、 | 


PROCEDURE fact2(n, m: INTEGER): INTEGER; 
BEGIN 
LOOP 
IF n = 0 THEN 
RETURN m 
ELSE 
m:-n*m; 


END 
END (* LOOP *) 
END fact2; 
当 优化 程序 将 函数 facta 回 代 到 其 函数 调用 中 之 后 ， 结 果 等 价 于 如 下 代码 ， 当 然 这 再 也 
不 是 应 用 式 代码 了 ， 但 这 正 是 我 们 的 目标 : 


PROCEDURE fact(n: INTEGER): INTEGER; 
VAR 
m: INTEGER; 
BEGIN (* fact *) 
m := 1; 
WHILE 
m 
n 
END; 
RETURN m 
END fact; 


我 们 并 不 是 真 的 指望 编译 程序 将 一 个 非 尾 递归 函数 转换 为 尾 递归 的 ; 但 一 旦 发 现存 在 尾 递 
归 ， 很 容易 将 它 优化 为 一 个 循环 。 
10.2.3 ”实现 一 个 应 用 式 语言 的 编译 程序 

一 个 很 少 被 颂扬 的 优点 是 自 编译 的 编译 程序 ， 即 一 个 编译 自身 的 编译 程序 。 告 看 起 来 ， 自 编 
译 的 意义 在 于 能 够 帮助 解决 自 举 问题 ; 实际 上 这 种 类 比 是 恰当 的 ,术语 “ 自 举 ” 通 常用 于 表示 让 
编译 程序 或 操作 系统 到 达 某 个 点 ， 从 这 一 点 起 它们 自己 就 可 以 运作 。 对 于 编译 程序 而 言 ， 第 一 步 
就 是 在 另 一 个 环境 中 编译 一 个 可 能 简化 了 的 编译 程序 版 本 ; 这 可 能 是 使 用 另 一 种 计算 机 上 已 有 的 
同一 种 语言 ， 又 或 者 是 将 编译 程序 手工 编译 为 另 一 种 可 用 的 语言 。 然 后 第 一 个 编译 程序 就 可 用 于 
将 自身 编译 为 目标 机 器 代码 ， 接 着 最 后 在 目标 机 器 上 用 编译 好 的 编译 程序 编译 其 自身 。 


"ow 6 


> 0 Do 
n*m; 
n-1 


286 & 10€ 


如 果 自 举 时 采用 了 简化 版 本 , 则 此 时 该 语言 可 扩展 为 覆盖 其 全 部 能 力 , 并 重 编译 增强 版 本 。 
如 果 这 一 最 终 阶 段 还 包括 了 早期 版 本 省 略 的 代码 优化 工作 ， 那 么 连续 再 次 对 编译 程序 的 重 编译 
(每 次 使 用 新 编译 的 版 本 编译 下 一 版 本 ) 还 可 提升 编译 程序 自身 的 性 能 。 然 而 ， 须 注意 细微 代 
码 错误 的 炉 效 应 ， 它 们 传播 起 来 就 好 像 生 物 学 中 对 应 的 “突变 ”一 样 ， 只 需 几 代 就 可 令 重 编译 
的 编译 程序 沦 为 不 育 的 或 者 无 用 的 。 

采用 语言 本 身 实现 编译 程序 的 主要 优点 是 ， 鉴 于 编译 程序 的 大 小 和 复杂 度 ， 它 能 够 对 自己 
的 大 多 数 代 码 进行 严格 测试 ， 从 而 在 开发 过 程 中 比 那些 为 测试 目的 而 创建 的 玩具 似 的 程序 有 可 
能 捕获 更 多 的 错误 。 由 于 开发 人 员 被 迫使 用 自己 的 创造 成 果 ， 这 也 激励 了 他 们 将 作品 完成 得 更 
便于 使 用 、 更 高 效 ， 相 当 于 在 一 个 更 高 的 抽象 层次 获得 同一 优点 。 因 而 ， 大 多 数 Lisp 编译 程序 
采用 Lisp 语言 编写 就 不 足 为 奇 了 ， 事 实 上 也 理应 如 此 。 

本 章 稍 后 将 重点 讨论 一 个 TAG 编译 程序 的 开发 ， 它 本 身 采 用 TAG 书写 。 然 而 本 书 的 重点 一 
直 是 将 属性 文法 用 于 编译 程序 的 实现 ， 因 此 在 研究 一 个 小 型 应 用 式 语 言 的 编译 程序 时 ， 我 们 搁置 
自 编译 的 编译 程序 目标 ， 而 选择 完全 以 定义 了 语言 的 语法 和 语义 的 文法 术语 来 讨论 这 一 问题 。 

不 管 采用 什么 语言 ， 编 译 程序 设计 的 需求 之 一 是 精确 地 定义 源 语言 和 目标 语言 。 为 与 本 书 
之 前 的 内 容 保持 连 惯 性 ,我 们 仍 将 Itty Bitty 栈 机 器 作为 目标 语言 ; 第 9 章 已 介绍 了 针对 商用 计 
算 机 设计 编译 程序 时 可 能 不 同 于 面向 IBSM 的 相关 课题 。IBSM 定义 为 一 种 传统 的 (整数 ) 算 
术 运 算计 算 机 ， 而 Lisp 语言 的 基本 数据 结构 是 表 (或 更 精确 地 说 ， 是 点 对 )。 因 而 ， 有 必要 定 
义 点 对 如 何 翻译 为 本 地 的 IBSM 数据 结构 ， 为 此 我 们 选用 与 以 下 Modula-2 语言 的 记录 类 型 等 
价 的 机 器 码 表示 : 


TYPE 
Cell - POINTER TO Datum; 
Lambda - PROCEDURE(paramlist: Cell): Cell; 
TagType - (code, actf, pair, atom, intn); 
Datum = RECORD 
CASE tag: TagType OF 
code: ` 
fun: Lambda; 
nArgs: CARDINAL; 
itsEnv: Cell | 
pair: 
ar, dr: Cell | 
iden: 
offs, lex: INTEGER | 
atom, intn: 
val: INTEGER 
END 
END; 


这 里 令 atom 的 变 体 包 含 一 个 索引 ， 指 向 某 一 未 详细 说 明 的 全 局 字符 串 表 ， 类 似 于 本 书 第 
3 章 讨论 过 的 做 法 ， 还 有 更 好 的 实现 方法 ， 但 这 里 没 必要 让 其 复杂 性 分 散 我 们 的 注意 力 。 虽 然 
我 们 只 定义 了 一 个 数值 数据 类 型 〈 整 数 )， 但 我 们 也 可 支持 诸如 有 理 数 或 大 整数 等 其 他 类 型 ， 
通过 点 对 或 整数 表 可 构造 出 这 些 类 型 。 只 需 简单 的 改动 就 可 将 这 些 数 据 类 型 添加 为 内 置 类 型 ， 
即 在 tag 类 型 中 包含 它们 的 枚 举 , 并 声明 一 种 合适 的 机 器 级 数据 结构 以 支持 它们 。 此 处 的 点 对 
结构 建 模 了 点 对 的 早期 形式 〔 名 字 地 址 寄存 器 ar 和 递减 寄存 器 ar 系 指 早期 实现 中 -一 个 机 器 
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指令 字 的 组 成 部 分 )。 

上 述 数据 结构 还 为 编译 后 的 代码 引用 定义 了 一 个 变 体 。 一 个 代码 引用 的 组 成 包括 : 一 个 指 
向 内 存 中 实际 机 器 代码 的 指针 (类 型 为 Lambaa)、 一 个 指向 其 符号 表 (在 该 作用 域 中 需要 编译 
更 多 的 代码 时 将 用 到 ) 的 引用 以 及 被 调用 时 期 望 在 其 激活 记录 中 找到 的 参数 的 个 数 。 根 据 同一 
记录 中 的 符号 表 引 用 ， 可 在 运行 时 的 栈 中 构造 激活 记录 本 身 ， 表 中 的 每 一 单元 对 应 一 个 指定 的 
参数 ， 因 而 激活 记录 的 大 小 取决 于 函数 的 定义 。 

我 们 选择 Scheme 语言 的 一 个 很 小 子 集 作 为 源 语言 ; Scheme 语言 是 Lisp 的 派生 语言 , 具有 
静态 作用 域 和 相当 规则 的 结构 与 原 语 [Sussman&Steele, 1975; Smith 1988]。 假 设 编译 程序 包含 
在 一 个 交互 式 的 环境 中 ， 因 而 上 只 要 有 未 编译 代码 的 函数 被 应 用 ， 编 译 程序 就 将 被 调用 。 未 编译 
的 代码 总 是 以 表 的 形式 出 现 ， 即 一 个 右 递归 的 点 对 链表 。 我 们 开发 了 两 个 文法 ， 一 个 分 析 源 程 
序 文 本 并 转换 为 表 ， 另 一 个 将 指定 的 表 编译 为 IBSM 代码 。 尽 管 对 内 置 函数 库 的 技术 细节 的 深 
入 研究 超出 了 本 书 的 讨论 范围 ， 但 有 一 点 很 重要 ， 就 是 需 区 分 那些 由 编译 程序 识别 并 编译 为 内 
联 代 码 的 函数 和 那些 直接 作为 全 局 定义 的 代码 而 存在 的 函数 。 为 此 ， 我 们 淡化 了 执行 环境 与 编 
译 程 序 之 间 的 边界 ， 因 为 正在 运行 的 程序 可 创建 新 的 表 ， 并 将 它们 提交 编译 。 在 实际 应 用 中 ， 
这 是 编译 程序 被 激活 的 惟一 途径 ， 因 为 在 用 户 交互 最 顶层 的 情况 也 是 如 此 。 

一 个 Lisp 解释 程序 的 核心 是 表达 式 求 值 程序 。 如 果 提 交 的 是 一 个 原子 , 求 值 程序 将 在 符号 
表 中 查找 该 原子 ， 并 返回 其 值 ， 如 果 是 一 个 点 对 ， 求 值 程序 将 对 car ( 即 上 述 记 录 类 型 中 的 
ar FR) 求 值 ， 期 望 找到 一 个 函数 引用 ， 并 将 car 记录 类 型 中 的 ar 字段 ) 作为 参数 表 传 递 
给 该 函数 。 在 本 书 的 实现 中 ， 求 值 程序 调用 编译 程序 ， 并 将 整个 表达 式 传递 给 编译 程序 ， 然 后 
执行 作为 结果 的 编译 后 代码 。 编译 程 序 根据 代码 清单 10.2 的 文法 分 析 这 一 表达 式 树 ; 代码 清单 
10.1 则 分 析 源 程序 文本 ， 并 转换 为 表单 元 的 树 表 示 。 如 果 读 者 已 熟悉 Scheme HA (BR Lisp 的 
某 一 其 他 派生 语言 )， 这 些 文法 将 更 容易 理解 。 还 须 注意 的 是 ， 编 译 程序 文法 发 送 给 代码 生成 
程序 的 代码 EmitIBSM 通常 将 两 条 或 三 条 指令 压缩 为 一 个 字 ， 以 提高 紧凑 性 ;附录 C 解释 了 
这 在 Itty Bitty 栈 机 器 中 是 如 何 工作 的 。 


代码 清单 10.1 将 Tiny Scheme 语言 从 源 程序 转换 为 树 表 示 的 文法 


SchemeTree TtheTree:tree 
一 "(" aList TtheTree yn 


— atm Tstrno { ATM 返回 扫描 程序 的 一 个 单词 } 


[theTree = <atom>%strno] 


> NUM Tvalu ( NUM 是 扫描 得 到 的 一 个 数字 } 


[theTree = <intn>%valu] 
一 "i'n SchemeTree TaTree 
[theTree = «pair <atom>%-2 aTree>] 
aList TtheTree:tree 


> SchemeTree TaTree 
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("." SchemeTree TbTree 
[theTree - «pair aTree bTree»] 


| aList TbTree 
[theTree - «pair aTree bTree»] 


) 


—  [theTree = <>] { 返回 nil } 


. 
i 





代码 清单 10.2 Tiny Scheme 语言 的 代码 生成 文法 片段 


CompileExpn lcantail:bool lenv:tree linCode:tree ToutCode:tree 


-> «pair <atom>%n rite» 


[n « 0] { 索引 为 负数 表示 一 个 内 置 函数 } 
([n + 1 = 0] 
rite: DoLambda Jenv lincode Toutcode 
Iin + 2 = 0] 
rite: DoSequence Jcantail Jenv 41 l0 lincode Toutcode 
J{n + 3 = 0] 
rite: DoCond Jcantail Jenv lincode ToutCode 
| [otherwise] 


rite: DoArith Jenv l-n lincode Toutcode 
) 


> «pair «atom»$n rite» 


{ 索引 为 正 数 表示 一 个 原子 } 


[n » 0] 
[Lookup lenv in TtheTree] { 找 出 它 的 当前 定义 } 
(([theTree: «pair ..>] | [theTree: «iden»] | [theTree: «code ..>]) 
[aTree = «pair theTree rite»] { 用 它 替 代 该 原子 } 
aTree: CompileExpn lcantail lenv lincode ToutCode 
{ 再 次 尝试 } 
| [otherwise] 
rite:CompileList Jenv Jincode Tacoae  ( 自由 变量 作为 栈 中 的 参数 3 
CallLibe lenv 43 in lacode Tfcode { 添加 库 查 找 引 用 } 


CallLibe lenv 42 Jcantail lfCode Toutcode 
C 调用 它 的 库 引 用 } 


) 


«pair «code theCode> rite» { 先前 已 编译 的 代码 3 


[GetInfo Jthecode Titsenv Tnargs Taddr] 
rite: DoSequence lfalse lenv li Jnargs lincode Tacode 
(BS y 
[EmitIBSM 1894 lacode Tbcode] { 将 父 帧 指针 压 入 栈 中 } 
([itsenv > 0; EmitIBSM 1889 Jbcode Tbcodee; itsenv@ = itsenv - 1])* 
([cantail = true] 
TailCall ltheCode lbCode ToutCode 


一 


{ 将 尾 递归 调用 转换 为 跳 转 语句 } 
| [otherwise; EmitIBSM 4124 lbCode Tccode] 
{ 生成 子 例 程 调用 3 
[EmitIBSM laddr lccode ToutCode] 


) 
— «pair left:«pair ..» rite» C 未 编译 的 函数 调用 } 
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rite: CompileList Jenv lincode Tacode { 将 代码 生成 到 栈 参 数 表 中 } 
left: CompileExpn Jfalse lenv laCode Tfcode  ( 取 函 数 代码 } 
CallLibe lenv 42 lcantaii lfCode ToutCode C 添加 库 引用 以 调用 它 } 

> «iden «intn»$lex»$offs { 局 部 参数 标识 符 } 

[CurrentLex Jenv Teur] 

([lex = cur] { 如 果 词 法 层次 是 当前 层次 ， } 
[EmitIBSM 1892 lincode Tacode] C 生成 代码 将 它 的 值 压 入 栈 中 } 
[EmitIBSM loffs lacode ToutCode] 

|[otherwise; n = cur - lex] { 否则 ， 是 一 个 非 局 部 的 引用 3 
[EmitIBSM 128633 lincode Tacodel { 生成 跟 在 静态 链 后 面 的 代码 } 

([n > 0; EmitIBSM 4827 lbcode ThCode@; n8 = n - 1])* 

[EmitIBSM 428059 lbcode TcCode] { 生成 代码 将 它 的 值 压 入 栈 中 ) 


[EmitIBSM loffs lcCode ToutCode] 
) 


> <atom>$n { 假设 是 索引 是 一 个 正 数 } 
[Lookup Venv Jn TaTree] { 找 出 它 的 当前 定义 } 
(({aTree: «pair ..>] | [aTree: <atom>] | aTree: «intn») | [aTree: <code>]) 
aTree: CompileExpn Jcantail Jenv Jincode ToutCode 


{ 再 次 尝试 } 
| otherwise; Error] { 未 定义 的 符号 引用 } 
) 
=> <intn>%n { 文字 量 数字 } 
[EmitIBSM 428 lincode Tacodel { 生成 代码 将 它 的 值 压 入 栈 中 } 
[EmitIBSM ln Jacode ToutCode] 
— «code theCode> - { 代码 引用 } 
[GetInfo ltheCcode Titsenv Tnargs Taddr] 
[EmitIBSM 428 lincode TaCode] ( 生成 代码 将 函数 引用 压 入 栈 中 } 


[EmitIBSM laddr laCode ToutCodel 


. 
H 


DoArith lenv:tree lop:int lincode:tree ToutCode:tree 


— «pair left «pair rite <>>> { 需要 两 个 参数 组 成 的 表 } 
left: CompileExpn Jfalse lenv lincode facode 
{ 对 参数 求 值 } 
rite: CompileExpn lfalse Jenv lacode TeCode 
rite: DoArithOp lop Jecodae Toutcode ( 生成 运算 符 的 代码 } 
>  atree { 未 编译 的 参数 表 , 故 ...) 
' atree: CompileList lenv lincode Tacoae { 在 栈 参数 表 中 生成 代码 } 
[EmitIBSM 413288 lacode Thcode] { 生成 提取 car 并 压 入 栈 中 的 代码 } 
[EmitIBSM 410105 Jbcode Tccoae] 
[EmitIBSM 112381 Jccode Tacode] { 生成 提取 cdr 的 代码 } 


[EmitIBSM 1889 lácode Tecode] 
rite: DoArithOp lop Jecode Toutcode  ( 生成 运算 符 的 代码 } 


; 


CompileList lenv:tree linCodeitree ToutCode:tree 
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— «pair left rite» 
left: CompileExpn false lenv Jincode Tacode 


C 编译 表 的 car ) 
rite: CompileList Jenv lacode Tccode { 执行 cdr } 
CallLibe Jenv 41 Lo Jccode Toutcode { 将 库 引 用 添加 到 cons } 
> <> 
[EmitIBSM 430 lincode Toutcode] { 在 运行 时 将 nil 压 入 栈 中 } 
DoArithOp lop:int linCode:tree ToutCode:tree 
—  atree C 操作 数 已 编译 好 } 


([op = 4; EmitIBSM 112 linCode Toutcode] { 加 法 } 

I[op = 5; EmitIBSM l404lincode Toutcode] { WME } 

ifop = 6; EmitIBSM 111 lincode ToutCode] { 乘法 } 

1[op = 8; EmitIBSM 116 linCode Toutcode] { 判断 相等 } 
1[op = 9; EmitiBSM 117 lincode foutcode] { 判断 小 于 } 

| lotherwise; Error] { 未 知 运算 符 } 
) 


, 


I 


DoSequence Jtail:bool lenv:tree lent:int Jlimit:int lincode:tree ToutCode:tree 


3 atree 


[count = limit] { 如 果 相 等 则 仅 有 一 个 表 的 值 ， } 
atree: CompileList lenv lincode Toutcode ( 因而 生成 代码 放 入 栈 中 } 


=> «pair left rite» 
left: CompileExpn l(tail&rite-e») lenv lincode Tacode 


{ 编译 car ) 
rite: DoSequence lenv Jcnt+1 llimit Jacode Toutcode 
C 执行 car } 
> <> 
[outCode = inCode] 
AddSymbols linenv:tree Toutenv:tree Tnsyms:int 
— «pair «atom»$n rite» { 所 需 的 符号 } 
rite: AddSymbols linenv Tanenv Tsyms { 计算 它们 的 个 数 以 取得 偏 移 量 } 
[CurrentLex lanenv Tiex; offs = -2 - syms; nsyms = syms + 1] 
(into lanenv ln l«iden <intn>%lex>%offs Toutenv] 
{ 插入 该 名 字 } 


一 <> 
[outenv = inenv; nsyms = 0] 


9 


DoLambda lenv:tree linCode:tree ToutCode:tree 
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— «pair left rite> { 需要 两 个 表 } 
[OpenFrame lenv Tnewenv] { 为 参数 开设 新 的 帧 } 
left: AddSymbols lnewenv Tfunenv Tnsyms { 插入 它们 3 
[EmitIBSM 4158 l«» Thcode] { 生成 过 程 的 入 口 代 码 } 
rite: DoSequence ltrue ifunenv 41 Lo Vbcode Tecoae 
{ 生成 过 程 体 } 
[EmitIBSM 4188 lecode TxCode] { 添加 出 口 代码 ) 


[EmitIBSM Jnsyms ixcode TECode] 

[MakeCode lf£unenv insyms Ltcode TtneCode] 

[GetInfo Jthecode Titsenv Tnargs Taddr] 

[EmitIBSM 128 lincode TcCode] { 生成 LDc 指令 将 引用 压 入 栈 中 } 
[EmitIBSM laddr VcCode Toutcodel 


DoCond lcantail:bool lenv:tree linCode:tree ToutCode:tree 


+ «pair expn «pair left «pair rite <>>>> { 需要 3 个 参数 组 成 的 表 } 
expn: CompileExpn Jfalse Jenv lincode Tacode 
{ 对 布尔 表达 式 求 值 的 代码 } 
[EmitIBSM 160 lacode Tbcode] { 添加 条 件 分 支 语句 } 
[EmitIBSM l0 lbcode Ttcode] 
left: CompileExpn lcantail. lenv JtCode Txcode 


{ 生成 true 分 支 的 代码 3 


[EmitIBSM 41950 VxCode Tccode] { 无 条 件 分 支 } 
[EmitIBSM l0 lccode Tecode] 
[BackPatch lbCode lecode ffCode] { 条 件 分 支 到 达 此 处 } 


rite: CompileExpn lcantail lenv lfCode Tgcode 
{ ÆR false 分 支 的 代码 } 
[BackPatch Jccode Jgcode ToutCodel { 无 条 件 分 支 到 达 此 处 ) 


编译 程序 已 知 的 内 置 函 数 在 符号 表 中 标识 为 负数 索引 的 原子 。 其 中 一 个 函数 应 用 到 一 个 合 
适 的 参数 表 ， 将 产生 本 地 的 《内 联 的 ) IBSM 代码 。 文 法 中 仅 展 示 了 若干 此 类 函数 ， 即 整数 算 
术 运 算 符 、 条 件 与 函数 形式 以 及 顺序 结构 (Scheme 语言 中 的 begin)。 也 可 (并 且 应 该 ) 采用 
这 一 方法 添加 点 对 分 解 运算 符 car Al cdr; 点 对 合成 运算 符 cons MEARE, 因而 正确 的 
做 法 仍 是 库 函 数 调 用 ， 而 不 是 纯 内 联 代 码 。 该 编译 程序 已 知 三 个 库 函 数 ， 由 指向 非 终结 符 
CallLibe 的 索引 标识 ， 表 10-1 也 列 出 了 这 些 索引 。 一 个 完整 的 实现 可 能 还 需要 几 个 其 他 的 
内 署 函数 和 库 函 数 ， 编 译 程序 也 必须 知道 这 些 函 数 。 最 后 ， 有 一 些 内 存 管理 问题 ， 但 在 这 里 与 
我 们 无 关 ， 完整 的 实现 必须 为 编译 好 的 代码 分 配 内 存 结构 ， 并 实现 一 个 合适 的 垃圾 收集 程序 用 
于 恢复 不 可 访问 的 代码 片段 以 及 已 经 无 用 的 表单 元 ， 它 们 的 调用 通常 是 在 一 个 支持 cons 的 库 
例 程 中 。 


表 10-1 Tiny Scheme 语言 的 关键 内 置 例 程 与 库 例 程 
内 置 函 数 的 索引 
Lambda， 用 于 生成 函数 代码 


顺序 ， 也 用 于 函数 调用 的 栈 参 数 
条 件 ， 标 准 的 IF-THEN-ELSE 表达 式 形式 
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《 续 ) 
内 置 函数 的 索引 
-4 加 法 
-5 减法 
-6 乘法 
-8 比较 是 否 相 等 
-9 比较 是 否 小 于 
库 例 程 的 索引 








根据 左 部 和 右 部 〈car cdr) 构造 一 个 单元 (cons) 
构造 一 个 激活 帧 ， 并 调用 任意 一 个 函数 。 用 于 编译 时 无 法 确定 函数 的 功能 接口 〈 参 数 个 数 ) 的 
情况 ， 例 如 在 运行 时 才 编 译 的 函数 ， 或 由 一 个 自由 变量 查找 得 到 的 函数 
运行 时 在 符号 表 中 查找 一 个 自由 变量 


该 文法 省 略 了 两 个 重要 的 非 终结 符 。 其 中 一 个 是 callLibe， 它 只 负责 构造 合适 的 代码 以 
调用 指定 的 库 例 程 ， 其 细节 可 能 依赖 于 将 编译 好 的 程序 链接 到 库 例 程 时 所 选用 的 机 制 。 一 种 简 
单 的 实现 是 将 例 程 库 的 入 口 点 存放 到 内 存 低地 址 的 向 量 中 ， 然 后 对 库 例 程 的 调用 可 根据 索引 从 
该 向 量 中 取出 一 个 项 目 。 另 一 个 未 定义 的 非 终结 符 是 railcal1， 它 负责 将 一 个 尾 递归 的 函数 
调用 转换 为 跳 转 结构 。 在 上 述 文法 中 ， 这 一 优化 的 优势 并 不 明显 ， 部 分 原因 是 由 于 IBSM 的 过 
程 调 用 相对 而 言 开销 并 不 算 大 ， 并 且 跳 转 指令 的 开销 与 之 相 比 也 相差 无 几 ， 另 一 部 分 原因 是 大 
多 数 新 的 激活 帧 总 得 先 构造 出 来 ， 然 后 才 可 在 旧 激活 帧 上 安全 地 复制 参数 值 。 如 果 当 前 被 调用 
的 过 程 的 参数 个 数 不 同 于 调用 者 的 参数 个 数 ， 栈 中 返回 地 址 的 位 置 也 必须 移动 。 完 成 这 些 任务 
的 非 终结 符 〈 以 及 支持 该 非 终结 符 的 库 例 程 的 定义 ) 留 作 练习 。 

上 述 文法 描绘 的 编译 程序 并 未 涉及 延 拓 ， 因 为 并 没有 为 延 拓 生 成 技巧 性 较 高 的 代码 。 
Scheme 语言 采用 库 函 数 ca11/cc 获取 对 延 拓 的 访问 ， 并 且 所 有 实现 均 隐 藏 在 该 库 例 程 中 。 对 
一 个 延 拓 的 求 值 效 果 是 以 一 个 新 的 结果 跳 转 到 call/ce 的 出 口 ， 因 而 ， 库 例 程 必须 在 一 个 数 
据 结构 中 保存 运行 时 栈 的 内 容 ， 以 及 每 次 对 延 拓 求 值 时 根据 该 数据 结构 重建 栈 的 代码 。 这 种 情 
况 可 能 在 原 有 的 栈 消失 很 久 后 反 反 复 复 地 出 现 ， 因 而 必须 保存 整个 栈 的 内 容 。 当 不 再 有 任何 引 
用 指向 该 延 拓 时 ， 垃 圾 收集 程序 将 理所当然 地 丢弃 该 数据 结构 并 回收 其 内 存 空间 。 注 意 ， 保 存 
和 重建 运行 时 栈 的 效率 在 很 大 程度 上 取决 于 先前 将 尾 递 归 转 换 为 选 代 的 优化 工作 ， 因 为 每 一 迭 
代 程 序 均 消 除了 酚 帧 ， 因 而 这 些 栈 帧 无 需 保 存在 延 拓 之 中 。 

上 述 文法 也 不 支持 常量 折 登 。 我 们 认为 这 只 是 一 个 很 简单 的 改进 ， 也 将 它 留 给 读者 作为 练 
4. Scheme 语言 的 应 用 式 本 性 容易 令 人 急于 为 函数 的 定义 和 调用 生成 代码 。 一 种 好 的 优化 工 
作 要 求 尽 可 能 长 时 间 地 以 表 形 式 保留 过 程 的 定义 ， 从 而 常量 折 登 技术 有 机 会 将 调用 中 的 常量 参 
BUTE ARLHS. 在 一 个 实用 的 Lisp 编译 程序 中 , 开发 一 种 合适 的 启发 式 方法 判断 何 时 执 
行 此 项 工作 是 相当 困难 的 。 对 于 传统 语言 而 言 ， 过 程 的 定义 通常 太 大 ， 故 不 宜 回 代 到 过 程 的 调 
用 程序 中 ， 并 且 算 术 运 算 和 逻辑 运算 根本 就 不 是 过 程 调用 ， 因 而 这 一 决策 通常 不 是 一 个 问题 。 

关于 程序 的 部 分 求 值 已 开展 了 大 量 的 研究 ， 作 为 一 种 有 效 手段 将 一 个 通用 算法 转换 为 一 个 
处 理 特定 类 问题 的 程序 。 许 多 这 类 研究 取得 了 性 能 上 的 显著 提升 ， 但 它们 仅 考虑 了 采用 Lisp 
派生 语言 书写 的 程序 。 在 这 一 背景 下 ， 部 分 求 值 相 当 于 传统 程序 设计 语言 中 的 全 局 常量 折 交 和 
过 程 回 代 。 由 于 Lisp 语言 没有 专门 的 语言 结构 支持 与 特定 应 用 有 关 的 算法 , 所 以 这 些 结构 的 构 
建 必须 基于 底层 嵌 套 和 递归 函数 的 应 用 。 部 分 求 值 将 抽象 的 Lisp 程序 简化 成 Modula-2 程序 员 
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一 般 不 必 苦 思 冥想 即 可 编写 的 程度 ， 只 要 提供 了 第 8. 9 章 讨论 过 的 编译 程序 优化 技术 。 仅 当 
与 性 能 相对 较 差 的 解释 型 或 半 解 释 型 本 地 Lisp 程序 相 比 时 ， 部 分 求 值 的 Lisp BPA AS ATR 
目的 优势 。 

10.3 ”变换 属性 文法 的 编译 程序 

作为 一 个 编译 程序 的 规格 说 明 ， 变 换 属 性 文法 (TAG) 是 一 种 非 过 程式 程序 设计 语言 ， 意 
即 它 可 作为 一 种 完整 地 定义 一 个 程序 〈 即 一 个 编译 程序 ) 的 形式 化 源 语 言 。 因 而 ， 我 们 有 理由 
构思 一 个 编译 程序 ， 它 可 根据 TAG 生成 一 个 可 使 用 的 编译 程序 。 将 一 个 文法 编译 为 代码 的 程 
序 称 为 “编译 程序 一 编译 程序 ”” YACC (EH Yet Another Compiler Compiler 的 缩写 ) 是 一 个 著 
名 的 “编译 程序 一 编译 程序 ”例子 ， 它 根据 一 个 上 下 文 无 关 文法 的 规格 说 明 自 动 地 开发 一 个 分 
析 程 序 。 在 源 文法 中 ，YACC HIRAM C 语言 代码 片段 指定 语义 ， 这 些 代码 仅 能 有 限 地 访问 
单个 受 限 的 属性 。 扫 描 程 序 也 必须 在 一 个 单独 的 程序 (Lex) 中 开发 。 关 于 如 何 基于 不 同 的 集 
成 度 开发 一 个 高 效 、 高 产 的 “编译 程序 一 编译 程序 ”已 开展 了 大 量 研究 工作 [例如 : Leverett 
等 ，1979; Ganzinger 等 ，1977]， 但 由 于 本 书 的 重点 是 TAG， 本 章 只 讨论 如 何 运用 先前 章节 介 
绍 的 核心 概念 实现 一 个 TAG 编译 程序 。 

该 TAG 编译 程序 设计 为 一 个 自 编译 的 TAG， 将 TAG 翻译 为 标准 Modula-2 语言 。 预 定义 
函数 (通常 可 用 于 一 大 类 编译 程序 中 ) 设计 为 Modula-2 语言 的 过 程 库 ， 在 已 完成 的 编译 程序 
最 终 被 编译 成 目标 代码 时 ， 这 些 过 程 被 链接 到 编译 程序 中 。 编 译 程序 的 源 文法 以 一 种 独立 的 机 
器 可 读 形式 提供 ， 包 括 各 种 常见 的 工业 用 和 科研 用 计算 机 上 的 目标 代码 。 这 里 描述 的 编译 程序 
的 许多 特性 均 基 于 成 熟 的 技术 ， 无 需 特别 的 创新 。 我 们 的 目标 是 讨论 一 个 真正 可 使 用 的 编译 程 
序 实现 ， 从 而 鼓励 更 多 的 研究 与 开发 。 尽 管 不 断 有 研究 仍 在 进一步 改进 TAG 语言 及 其 编译 程 
序 ， 附 录 B 包含 了 TAG 语言 的 完整 语法 ， 以 及 本 章 描述 的 TAG 编译 程序 版 本 的 部 分 语义 ; 机 
器 可 读 的 文件 通常 在 不 断 更 新 。 

第 3 章 介 绍 的 算法 可 根据 正则 表达 式 机 械 地 构造 一 个 FSA 扫描 程序 ; 第 4 章 展示 了 如 何 根 
E LL(1) 文 法 机 械 地 构造 一 个 递归 下 降 分 析 程 序 ， 第 5 章 扩展 了 该 分 析 程 序 ， 使 之 支持 属性 求 
值 ， 第 6 章 和 第 8 章 简要 讨论 了 TAG 中 的 代码 生成 和 代码 优化 问题 。 现 在 我 们 可 将 这 些 技术 
组 合 为 一 个 将 TAG 翻译 为 一 个 可 使 用 的 编译 程序 的 工具 。 正 如 第 1 章 的 概述 〈 参 阅 图 1-1), 
一 个 编译 程序 需 考虑 六 个 组 成 部 分 。 其 中 ， 扫 描 程 序 、 分 析 程 序 和 树 变 换 程序 〈 优 化 程序 ) 这 
三 个 部 分 在 待 编译 的 源 文 法 中 分 别 以 不 同 的 小 节 表示 ; 而 约束 程序 和 代码 生成 程序 的 主要 组 成 
是 写 在 分 析 程序 和 变换 程序 部 分 的 属性 求 值 函数 ， 而 希望 执行 的 窥 孔 优化 工作 以 及 支持 字符 串 
表 和 符号 表 的 部 分 则 隐藏 在 其 中 的 预定 义 属性 求 值 函数 中 。 

10.3.1 TAG 编译 程序 的 组 成 部 分 

一 个 TAG 有 四 个 语法 组 成 部 分 ， 每 一 部 分 定义 了 编译 程序 的 一 个 单独 成 分 。 如 果 某 一 部 
分 未 用 上 ， 则 可 省 略 不 写 。 第 一 部 分 声明 了 在 整个 TAG 中 可 见 的 全 局 属性 、 可 用 于 构造 一 棵 
树 的 结 点 名 字 以 及 在 TAG 其 他 部 分 可 调用 的 预定 义 函 数 库 的 功能 接口 。 第 二 部 分 以 保留 字 
scanner 开头 ， 为 扫描 程序 的 所 有 单词 定义 了 正则 表达 式 ; 这 些 单词 往往 无 法 定义 为 单个 用 
引号 括 住 的 字符 串 文 字 量 ,或 者 涉及 特殊 的 扫描 程序 语义 。 空 白 和 注释 也 以 类 似 方 式 定 义 ， 采 
用 保留 字 ignore 作为 扫描 程序 的 一 个 非 终结 符 。 第 三 部 分 以 保留 字 parser 开头 ， 在 一 个 扩 
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展 了 属性 和 正则 表达 式 运 算 符 的 上 下 文 无 关 文 法 中 ， 定 义 了 编译 程序 的 语法 和 静态 语义 约束 。 
最 后 一 部 分 以 保留 字 transformer 开头 ， 在 一 个 上 下 文 无 关 的 树 变换 属性 文法 中 ， 定 义 了 待 
编译 的 编译 程序 的 所 有 代码 优化 和 优化 生成 需求 。 

分 析 程 序 的 语法 规则 接受 扫描 程序 的 单词 作为 其 输入 语言 ; 变换 程序 的 规则 在 树 模板 上 操 
作 ， 但 允许 分 析 程序 的 一 个 非 终结 符 通过 调用 变换 程序 的 规则 执行 局 部 的 树 变换 。 类 似 地 ， 变 
换 程序 中 的 一 个 非 终结 符 可 调用 分 析 程 序 中 的 一 个 空 非 终结 符 〈 即 一 个 不 读 入 任何 扫描 程序 单 
词 的 非 终结 符 )， 以 执行 不 应 用 到 任何 树 上 的 属性 求 值 。 

TAG 中 任 一 部 分 的 继承 属性 和 综合 属性 均 须 显 式 地 定义 其 类 型 , 可 使 用 以 下 五 种 类 型 名 保 
留 字 之 一 : int RAM. bool 表示 布尔 真 值 、get 表示 变 长 的 位 向 量 、table 表示 定 长 的 
HE COB). tree 表示 带 装 饰 的 树 结构 。 至 于 单个 非 终结 符 规则 中 的 局 部 属性 ， 则 由 
TAG 编译 程序 根据 其 用 法 自动 确定 其 类 型 。 

文法 在 本 质 上 是 非 过 程式 的 ， 但 正如 本 书 第 4、5 章 所 示 ， 一 个 属性 文法 可 直接 转换 为 
Modula-2 这 类 过 程式 代码 ; 除 扫描 程序 的 单词 所 要 求 的 从 左 到 右 求 值 次 序 之 外 ,这些 过 程式 代 
码 也 具有 强制 规定 了 文法 求 值 次 序 的 效果 。TAG 的 变换 程序 部 分 不 会 引用 输入 单词 ， 故 原则 上 
变换 程序 规则 中 对 一 个 非 终结 符 的 引用 可 按 与 属性 流 相 容 的 任意 次 序 求 值 。 实 际 上 ， 在 TAG 
编译 程序 的 一 个 早期 版 本 中 ， 就 重新 组 织 了 属性 求 值 函数 的 次 序 以 消除 向 前 引用 依赖 关系 ; 但 
用 户 发 现 这 些 文法 〈 以 及 编译 得 到 的 代码 ) 非常 难以 理解 和 调试 ， 因 而 后 来 握 弃 了 这 一 ate. 
当前 版 本 的 TAG 编译 程序 确实 区 分 了 属性 求 值 函数 〈 将 先前 未 受 限 的 属性 限定 为 单个 值 ) 和 
属性 断言 《对 已 受 限 的 属性 应 用 更 多 约束 )。 如 果 选 择 或 迭代 这 类 正则 表达 式 运算 符 的 用 法 导 
致 这 一 决策 出 现 二 义 性 ， 或 应 用 到 一 个 属性 的 首 个 断言 未 能 将 它 限 定 为 单个 值 ， 则 会 报告 一 个 
错误 。 类 似 地 ， 一 个 传 给 非 终结 符 的 继承 属性 或 一 个 从 非 终结 符 得 到 的 综合 属性 在 它们 被 传递 
的 那 一 刻 起 ， 就 必须 完全 受 限 为 单个 值 。 

10.3.2 文法 中 的 迭代 运算 符 

涉及 迭代 运算 符 的 正则 表达 式 扩展 给 属性 求 值 提出 一 个 特殊 问题 .TAG 中 没有 变量 或 赋值 
语句 之 类 的 东西 ， 从 这 一 点 来 说 TAG 是 一 种 数据 流 语言 。 一 个 属性 求 值 函数 可 将 一 个 属性 的 
值 限 定 为 单个 值 ， 但 此 后 任何 求 值 函数 〈 原 则 上 ) 都 不 可 修改 该 属性 的 这 个 值 ， 其 他 的 求 值 最 
多 只 能 为 这 个 值 添加 更 多 的 约束 作为 断言 ， 璧 如 将 这 个 值 与 其 他 属性 表达 式 进 行 比 较 ， 或 从 另 
一 非 终结 符 的 引用 综合 出 一 个 相同 的 值 。 只 要 该 断言 的 检测 失败 ， 就 会 导致 整 条 规则 失败 ， 除 
非 有 另 一 选项 没有 同时 失败 。 在 Scheme 或 Lisp 这 类 语言 中 ， 由 于 缺少 对 变量 的 赋值 ， 所 以 不 
会 产生 特别 的 问题 ， 因 为 不 存在 这 种 迭代 运算 符 而 只 有 递归 结构 。 类 似 地 ， 如 第 2、5 章 所 示 ， 
无 须 借 助 于 赋值 语句 ， 文 法 的 递归 即 可 实现 迭代 的 概念 以 及 属性 值 的 序列 化 。 但 一 个 文法 如 何 
能 够 处 理 正则 表达 式 的 星 号 运算 符 〈 例 如 用 一 个 属性 对 选 代 次 数 进行 计数 ) ? 我 们 打算 从 第 3 
章 提出 的 迭代 运算 的 递归 等 价 形式 中 寻找 灵感 。 

考虑 一 个 简单 的 文法 G， 同 时 将 USB VESNRUERERGE SRM Rie HATE SL, 

Gob Goa*b 
G-aG 

候 设 需要 为 文法 G 综合 出 一 个 属性 ?2， 用 于 计算 一 个 串 中 单词 a 的 个 数 。 在 递归 形式 中 ， 

可 直接 得 到 如 下 的 属性 求 值 : 
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G Tn b [n=0] 
>a Gtm [n=m+1] 
文法 G 的 重 写 过 程 中 , 每 一 句 型 均 创 建 了 属性 的 一 个 新 实例 ,这 些 实例 均 有 自己 惟一 的 
(固定 的 ) 值 : 0、1、2、…。 非 终结 符 的 调用 之 间 并 没有 赋值 的 意思 ， 因 为 n 的 单个 值 在 这 一 
递归 层次 的 整 条 规则 中 都 是 有 效 的 。 值 的 稳定 性 是 一 个 关键 的 概念 ， 如 图 10-2 中 的 层次 所 示 。 
属性 在 它 的 层次 中 有 固定 的 值 ， 但 综合 出 来 并 向 上 传 给 下 一 层次 的 值 可 能 不 同 。 





图 10-2 横 跨 了 递归 或 迭代 的 属性 求 什 


此 时 , 令 图 10-2 中 的 每 一 层次 表示 一 次 迭代 ， 而 不 是 递归 。 在 该 迭代 中 ， 局 部 属性 nn 仍 有 
固定 的 值 ， 并 且 向 上 传递 给 下 一 迭代 的 值 也 可 能 不 同 。 我 们 可 在 文法 的 语法 上 表示 将 局 部 属性 
的 一 个 新 闻 定 值 传 递 给 下 一 迭代 ， 即 在 属性 名 之 后 附加 一 个 符号 “@”。 该 符号 反映 了 属性 值 
的 传递 穿越 了 迭代 的 边界 , 并 且 不 应 与 变量 的 赋值 相 混淆 ; 变量 赋值 在 过 程式 语言 中 无 此 限制 。 
当 该 表达 式 翻 译 为 编译 后 的 文法 中 的 一 条 赋值 语句 时 , TAG 编译 程序 通过 阻止 对 实现 了 该 局 部 
属性 的 已 修改 局 部 变量 的 访问 ， 保 障 了 值 的 稳定 性 。 本 例 中 , 文法 G 最 终 综合 出 来 的 值 要 么 是 
于 的 初始 值 (如 果 没 有 迭代 )， 要 人 么 是 对 迭代 运算 中 mn@ 的 最 终 求 值 结 果 ; 

G În >[n=0](a [n@=n+1])*b 


10.3.3 ”向 用 户 报告 语法 错误 


帮助 我 们 学 习 编译 程序 概念 的 大 多 数 玩具 编译 程序 往往 迷失 于 实用 的 出 错 报告 。 本 书 从 来 
没有 省 略 对 一 个 语法 错误 或 约束 错误 的 检测 ， 但 迄今 为 止 ， 遇 到 这 类 错误 的 通常 结果 一 直 是 以 
玉石 俱 焚 方式 终止 编译 过 程 ， 除 报告 “出 现 错误 ”之 外 没有 任何 其 他 的 诊断 信息 。 在 一 个 将 由 
编译 程序 编写 人 员 之 外 的 其 他 用 户 使 用 的 实用 编译 程序 中 ， 这 种 做 法 是 难以 接受 的 。 将 出 现 的 
错误 自动 关联 到 失败 的 产生 式 并 不 是 特别 困难 ,但 这 些 信息 未 必 能 给 用 户 带 来 更 多 的 启发 ; 能 
够 报告 一 个 失败 的 可 能 原因 的 编译 程序 才 会 更 有 价值 。 

如 第 4、7 章 所 述 ， 研 究 文献 中 己 有 大 量 复 杂 的 出 错 恢复 和 报告 方法 。 我 们 倾向 于 一 种 更 直 
接 的 方法 ， 与 之 前 让 设计 人 员 控 制 编译 程序 操作 的 做 法 保持 一 致 。 因 而 TAG 编译 程序 有 一 种 语 
法 形式 用 于 定义 一 条 产生 式 规则 失败 时 要 报告 的 出 错 消息 , 而 消息 的 内 容 则 可 由 文法 设计 人 员 显 
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式 地 定义 。 报 错 消息 由 一 个 特殊 的 由 方 括号 括 住 的 语义 动作 序列 组 成 ,它们 仅 当 直 接 跟 在 其 后 的 

语义 动作 或 分 析 程 序 语法 分 析 失败 时 才 被 求 值 。 报 错 消息 仅 用 于 它 所 驻 留 的 正则 表达 式 形式 中 ， 

因而 一 个 迁 代 运算 符 的 最 后 一 次 迭代 可 以 《实际 上 也 必须 ) 在 失败 时 不 将 错误 向 外 传播 到 其 外 层 

的 包围 结构 中 ， 除 非 在 该 迭代 运算 符 中 指定 了 一 个 报错 消息 。 类 似 地 ， 在 一 个 选择 运算 结构 的 选 

项 体 中 的 报错 消息 ， 只 会 在 编译 后 的 代码 对 该 选项 进行 尝试 并 失败 之 后 才 被 调用 。 
报错 消息 从 左 到 右 排 序 ， 因 而 语法 中 不 同 的 语义 动作 或 单词 会 引发 不 同 的 连续 失败 机 会 ， 

每 一 种 不 同 的 情况 均 可 用 一 个 适当 的 报错 消息 序列 作为 关键 码 。 因而 , 在 以 下 语义 动作 序列 中 ， 
[断言 A; 报错 文本 B; 断言 C; 报错 文本 D; 断言 E] 


断言 A 可 静默 地 失败 ， 不 调用 任何 特定 的 报错 消息 ， 但 断言 C 的 失败 将 报告 一 个 报错 文本 B， 
断言 E 的 失败 将 报告 一 个 报错 文本 D。 如 果 将 该 序列 置 于 一 个 选择 运算 的 一 个 选项 之 中 , 或 者 
它 控制 着 一 个 迭代 运算 ， 则 断言 A 的 失败 将 直接 前 进 到 下 一 选项 或 终止 迭代 ， 而 断言 C 或 断 
言 孔 的 失败 则 将 报告 各 自 的 报错 消息 ， 并 终止 整个 编译 程序 的 运行 。 这 使 得 我 们 有 可 能 构造 语 
义 制导 报错 消息 ， 这 些 消 息 局 部 于 待 检 查 的 约束 。 

TAG 编译 程序 中 的 一 个 报错 消息 规格 说 明 在 分 隔 语义 动作 的 方 括号 中 用 一 对 双 斜 杠 字符 
(44 ... 11") 分 隔 。 在 报错 消息 的 规格 说 明 中 不 可 访问 非 终结 符 ， 但 可 使 用 任何 预定 义 的 
属性 求 值 函 数 ， 包 括 引 发 错误 或 与 其 解释 相关 的 属性 的 引用 。 报 错 消息 中 用 引号 括 住 的 文本 字 
符 串 ， 通 常 就 是 构成 大 部 分 屏幕 显示 出 错 消息 文本 的 语义 动作 。 

代码 清单 10.3 中 的 文法 片段 演示 了 报错 消息 的 用 法 。 在 该 例子 中 ， 非 终结 符 TypeClass 
返回 一 个 数字 ， 该 数字 反映 了 由 树 etype 表示 的 类 型 种 类 。 因 而 ， 乘 法 运算 符 “* ”规定 了 类 
型 种 类 4、0 或 3 〈 分 别 表 示 集 合 、 整 数 或 实数 类 型 )， 但 除法 运算 符 拒绝 整数 类 型 ， 而 整除 运 
算 符 则 要 求 整数 类 型 。 如 果 所 有 这 些 约束 均 未 失败 ， 则 还 须 检 查 第 二 个 操作 数 的 类 型 也 是 兼容 
的 ， 诸 如 此 类 。 


代码 清单 10.3 ”一 个 TAG 文法 片段 中 的 报错 信息 
Term !env:table ^etype:tree ^evalu:tree ^iscon:bool 
一 > Factor lenv ^etype “evalu ^iscon 


TypeClass !env !etype ^tyc 
(("*" [//"Can't multiply that type"//] 


([tyc = 4; opc = 11] | [tye = 0; ope = 2] | [tyc = 3; opc = 71) 
|"/" [//"Can't divide that type"//] 
([tyc = 4; opc = 12] | [tyc = 3; opc = 61) 
| ("REM" [opc = 5] | "DIV" [opc = 3] | "MOD" [opc = 4]) 
[//"Whole number type required"//; tyc = 0] 
| ("AND" | *&") [opc = 11; //"AND requires BOOLEAN type"//] 


Lookup !env !-2 ^etype) 
Factor !env ^type2 ^valu2 ^iscon2 
[//"Expression term has incompatible types"//] 
Compatible !env !etype !type2 





10.3.4 ”自动 构造 扫描 程序 
TAG 源 文法 的 scanner 部 分 定义 了 目标 编译 程序 的 部 分 扫描 程序 ， 扫 描 程 序 的 其 余部 分 
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则 隐 式 地 定义 为 由 引号 括 住 的 字符 串 文字 量 ， 它 们 就 地 分 布 在 分 析 程序 中 的 应 有 位 置 。TAG 纺 
译 程序 为 扫描 程序 中 的 这 两 类 单词 构造 非 确定 的 FSA (NDFA) 变迁 ， 并 将 这 些 变迁 收集 到 一 
个 无 序 的 列表 中 。 分 析 了 整个 文法 并 将 其 转换 为 一 棵 中 间 树 之 后 ， 一 个 树 变换 非 终 结 符 
BuildScanner 将 第 3 章 的 算法 应 用 到 变迁 列表 以 创建 一 个 确定 的 扫描 程序 ， 然 后 将 FSA 的 
状态 表 翻 译 为 可 执行 代码 。 

四 类 变迁 按 不 同方 式 添加 到 NDFA 的 列表 中 。 其 中 两 种 是 正则 表达 式 结构 产生 的 空 变迁 以 
及 读 字 符 变迁 ， 构 造 NDFA 时 通常 需要 这 两 种 变迁 。 除 空 变 迁 和 读 字符 变迁 之 外 ， 还 有 语义 动 
作 空 变迁 和 单词 输出 停机 。 停 机 状态 有 一 个 语义 动作 用 于 在 停机 时 输出 单个 单词 的 编号 ， 分 析 
程序 在 向 前 看 单词 或 接受 动作 中 将 用 到 这 些 单词 编号 。 在 转换 为 确定 FSA (DFSA) 的 过 程 中 ， 
这 些 停 机 动作 得 以 保留 ， 然 后 被 替换 为 等 价 的 转 入 状态 0 的 空 变 迁 。 当 然 ， 在 最 终 完 成 的 扫描 
程序 中 不 会 保留 任何 空 变迁 ， 因 而 每 一 单词 变迁 产生 一 个 读 变迁 〈 仍 附加 着 该 单词 的 语义 为 
这 些 读 变迁 从 停机 状态 出 发 ， 转 入 由 状态 0 出 发 、 沿 一 个 读 变迁 即 可 到 达 的 每 一 状态 ; 惟一 例 
外 是 如 果 有 从 停机 状态 出 发 的 读 变迁 ， 新 变迁 集中 将 删除 这 些 输 入 符号 。 

图 10-3 演示 了 根据 正则 表达 式 

G acl[x1lb’ [y] 

构建 的 一 个 确定 的 FSA。 停 机 状态 HH 输出 单词 x， 停 机 状态 F 输出 单词 y。 从 状态 H 到 起 始 状 
AS S 的 空 变迁 立即 被 沿 字 符 a 转 入 状态 A、 沿 字符 b 转 入 状态 F 的 变迁 替代 ， 这 两 个 新 变迁 均 
保留 了 输出 单词 x 的 语义 动作 。 类 似 地 ， 停 机 状态 下 本 来 应 有 两 个 新 变迁 沿 字 符 a Mb 出 发 ， 
只 是 原本 已 有 沿 字 符 5 出 发 的 变迁 ， 因 而 在 新 的 变迁 列表 中 可 省 略 这 一 字符 。 现 在 容易 看 出 ， 
FSA 输出 它 的 单词 ， 然 后 继续 读 入 下 一 单词 ， 而 不 是 停机 。 在 实际 应 用 中 ， 扫 描 程 序 的 过 程 
Getoken 将 维护 一 个 静态 的 状态 变量 ， 从 而 可 将 每 一 个 输出 单词 返回 给 分 析 程 序 ， 并 在 再 次 
被 调用 以 读 入 下 一 单词 时 ， 可 从 上 次 停止 执行 的 状态 中 恢复 。 


Onno; (a) 
[xj a 


图 10-3 ”将 停机 状态 转换 为 扫描 程序 的 读 变迁 
语义 动作 变迁 是 书写 在 源 文法 中 scanner 部 分 的 属性 求 值 函数 的 结果 。 这 些 是 空 变 迁 ， 
在 构建 一 个 确定 的 FSA 之 前 必须 消除 它们 , 但 语义 动作 代码 却 不 能 丢弃 ,而 是 在 变换 时 将 每 一 
空 变迁 与 其 后 继 变迁 合并 ， 从 而 构造 过 程 将 语义 动作 从 空 变迁 上 转移 到 后 续 变迁 上 。 这 一 效果 
类 似 于 图 10-3 中 的 结果 ， 但 在 构造 过 程 的 更 早 阶段 执行 变换 。 例 如 ， 如 果 从 状态 A 到 状态 B 
有 一 个 带 语义 动作 x 的 空 变迁 , 且 从 状态 B 到 状态 C 和 D 有 带 语义 动作 和 z 的 变迁 , 则 变换 
得 到 的 FSA 中 ， 从 状态 A 到 状态 C 和 D 分 别 有 带 语义 动作 xy 和 xz 的 新 变迁 ， 并 且 原 有 的 空 
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变迁 被 删除 。 先 将 空 环 路 删除 是 很 重要 的 ， 只 有 这 样 上 述 变换 过 程 才 会 终止 。 

当 扫 描 程序 最 终 转换 为 可 执行 代码 时 ， 语 义 动作 代码 的 每 一 字符 串 在 状态 表 中 均 有 一 个 入 
口 ， 它 们 被 指定 了 惟一 的 识别 号 ， 并 且 扫描 程序 代码 中 的 CASE 语句 将 根据 每 一 状态 的 变迁 选 
择 合适 的 代码 串 来 执行 。 扫 描 程 序 的 构造 过 程 一 开始 就 指派 了 识别 号 ， 然 后 将 识别 号 收集 到 集 
合 中 ,以 免 在 构造 确定 FSA 的 过 程 中 因 合并 状态 而 产生 不 必要 的 代码 副本 。 类 似 地 ,扫描 程序 
的 构造 程序 收集 输入 字母 表 中 的 字符 放 入 等 价 类 集合 中 ， 以 压缩 状态 表 的 大 小 。 代 码 清单 10.4 
展示 了 TAG 编译 程序 中 扫描 程序 构造 部 分 的 结构 ， 包 括 构造 变迁 列表 并 将 该 列表 转换 为 代码 
的 非 终结 符 的 框架 。 


代码 清单 104 TAG 编译 程序 中 ， 扫 描 程 序 的 编译 程序 文法 


TagCompiler { 这 是 TAG 的 目标 符号 } 
> oo... { 初始 化 和 头 部 } 
"Scanner" { 开始 处 理 扫描 程序 部 分 } 
( 
ID Tname [newelt ltokset Ttokno] { 为 它 取 一 个 单词 编号 } 


DeriveAttrs Jenv ļ4<> Tattlist Tnuenv { 分 析 其 属性 列表 } 

"-»" ScanRegExpn lnuenv ltranlist ltokno l0 Ttostate Tnutran 
[tranlist? = «tk nutran <no>%tostate attlist»$tokno] 

[into lenv Jname l«tk attlist>%tokno Tenv@]  ( 保存 名 字 } 


)4 


"parser" { 开始 处 理 分 析 程 序 部 分 } 
rend" ID Ttagname uot { 源 文法 结束 ) 
["MODULE "; spell ltagname; ": IMPORT Library;"] 

{ 开始 生成 代码 } 
BuildScanner lenv Jtranlist { 准备 好 输出 扫描 程序 } 


thetree:BuildParser Jenv { 平展 并 输出 分 析 和 变换 程序 } 
ej C 结束 、 关 闭 文件 ... } 


ScanRegExpn lenv:table lintran:tree ltokn:int lfromst:int Ttost:int Toutran:tree 


—  ScanAltern lenv lintran Jtokn lfromst ftost Toutran 

( 
"|* ScanAltern lenv loutran tokn Jtost fast Tatran 
[outran@ = «tr atran «no»$ast <no>%tost <> <>>] ( 空 变迁 } 


) * 
ScanAltern lenv:table lintran:tree ltokn:int lfromst:int Ttost:int Toutran:tree 
—  [tost - fromst; outran - intran] { 建立 迭代 程序 } 


( 


ScanTerm lenv loutran ltokn ltost Trost@ Toutrane 
)* * 


ScanTerm lenv:table lintran:tree ltokn:int lfromst:int Ttost:int Toutran:tree 


一 > " (" 
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[newstate Jenv fast; newstate lenv Ttost] { 两 个 新 状态 ) 
[atran = <tr intran «no»$fromst <no>%ast <> <>>] { 空 变 迁 ... } 
ScanRegExpn lenv latran ltokn last Tost Totran 
") n 
[xtran = «tr otran <no>%ost <no>%tost <> <>>] 
( "ok n 
[stran = «tr xtran <no>%ost <no>%tost <> <>>] 
{outran = <tr stran <no>%ast <no>%tost <> <>>] 
| "un 
[outran = «tr xtran <no>%ost <no>%ast <> «»»] 
| "?" 
[outran = «tr xtran <no>%ast <no>%tost <> <>>] 
| [otherwise; outran = xtran] 
) 


— CHR flochr [newstate Jenv Ttost] { 读 变迁 的 新 状态 ， } 
[addset llochr Jempty Tchset] { 沿 所 有 这 些 字 符 出 发 .. 、) 
( 
".." CHR Thichr 


( 
[lochr < hichr; addset Jlochr+1 lchset Tchset@; lochr@ = lochr + 1] 


)* 
) 
[outran = «tr intran «no»$fromst <no>%tost chset <>>] 


= n [" 
[newstate Jenv Ttost] ( 语义 动作 变迁 的 新 状态 } 
SemanticAction lenv ttokn Tatree { 构建 语义 动作 树 } 
^] a 


foutran = «tr intran <no>%fromst <no>%tost <> atree»] ; 


ParseToken lenv:table lintran:tree Toutran:tree Tthetree:tree 


— STR Tstrno [newstate lenv Ttost] { strno 是 字符 串 表 的 索引 } 
[chno = 0; xst = 0; atran = intran; length lstrno Tien] 
{ 将 串 分 解 } 


[chno < len; charfrom tstrno lchno Tachr] { 取 一 个 字符 串 的 字符 } 
[addset lachr lempty Tchset] { 沿 该 字符 构建 一 条 读 变迁 ) 
[atran@ = «tr atran «no»$xst <no>%ast chset <>>] 
[xst@ = ast; chno@ = chno + 1] 

)* 


[outran = <tr atran «no»$xst <>>%strno; thetree = «tk <>>%strno] ; 
BuildScanner lenv:table ltranlist:tree 


一 tranlist:ScannerLists Tthevars Ttheacts Tchrsets 


{ 提取 集合 和 列表 } 


thevars:VarList ltrue ltrue C 输出 扫描 程序 的 VAR 声明 ) 
tranlist:FindCycle 40 lo { 删除 空 环 路 ) 
tranlist:EmptyMoves { 删除 空 变迁 } 


[addset Lo lempty Tstsets; nutrans = <>] { 转换 为 确定 的 FSA } 
( 
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AnotherSet Jstsets Tstno { 处 理 下 一 状态 ， 或 失败 } 


TransSet Jtranlist Jnutrans lstsets Jstno Tstsets@ Tnutrane 
)* 








nutran:HaltMoves { 将 停机 状态 转换 为 变迁 } 
nutran:OutStatenCharTables Jchrsets { 输出 已 完成 的 确定 FSM 表 } 
["PROCEDURE Getoken; BEGIN REPEAT"] { 正确 地 输出 扫描 程序 } 
["ReadChar (inch); temp := ChTable[inch]; CASE StTable[state, temp] OF"] 
theActs:Flatten lenv { 输出 语义 动作 的 代码 } 

["END; state := StTable[state, temp + 1] UNTIL NexToken # 0 END Getoken;"] 
tranlist:OutTokProcs lenv ; { 执行 带 属 性 的 单词 过 程 } 





代码 清单 10.4 的 TAG 编译 程序 文法 中 ， 分 析 扫描 程序 规格 说 明 的 部 分 相当 简单。 正则 表 
达 式 被 分 析 并 转换 为 由 空 变迁 连接 的 读 字 符 变 迁 。 停 机 状态 (tk 结 点 ) 被 添加 到 变迁 列表 中 ， 
稍 后 由 BuildScanner 处 理 。 编 译 TAG 中 的 parser 部 分 时 ， 非 终结 符 ParseToken 负责 
识别 字符 串 文 字 量 ， 将 它们 分 解 为 各 自 的 一 个 个 字符 ， 并 构建 一 个 从 状态 0 开始 、 以 另 一 停机 
状态 结束 的 变迁 序列 。 

BuildScanner 的 大 部 分 编译 时 间 花 费 在 迭代 运算 符 根据 消除 空 变 迁 后 的 变迁 列表 构造 
一 个 确定 的 FSA。 迁 代 运 算 符 第 1 行 的 非 终 结 符 Anotherset 查找 未 被 转换 到 新 FSA 中 的 状 
态 集 ， 或 在 不 再 有 这 些 状态 时 停止 迭代 过 程 。 第 2 行 的 非 终结 符 TransSet 查找 从 stno 指定 
的 集合 中 的 所 有 状态 出 发 的 变迁 ， 对 约 简 后 的 输入 字母 表 中 的 每 一 符号 ， 创 建 一 个 状态 集 添 加 
到 列表 stsets 中 《并 返回 更 新 后 的 列表 )。 新 的 状态 机 还 扩展 了 一 个 变迁 ， 沿 该 符号 转 入 新 
的 状态 集 编号 。 

为 标准 Modula-2 编译 程序 构造 的 扫描 程序 采用 完全 解码 的 保留 字 ， 它 的 FSA 有 大 约 220 个 
状态 ， 其 中 输入 字母 表 约 简 为 57 个 等 价 类 和 大 约 150 个 不 同 的 语义 动作 序列 〈 包 括 输出 的 所 有 
单词 )。 将 FSA 的 状态 约 简 为 最 小 数目 仅 可 消除 不 足 20 个 状态 ， 可 谓 得 不 偿 失 ， 故 TAG 编译 程 
序 省 略 了 这 一 步 又。 与 编译 程序 的 其 他 部 分 相 比 ， 最 后 得 到 的 状态 表 的 大 小 相当 合理 。 如 果 将 保 
留 字 作 为 标识 符 扫描 并 从 字符 串 表 中 取出 ， 而 不 是 由 FSA 识别 ， 则 状态 数目 还 可 约 简 80%， 并 
且 输 入 字母 表 和 语义 动作 和 集 的 大 小 可 减 半 ， 因 而 直接 编写 代码 实现 PSA 可 能 更 加 切实 可 行 。 

然而 ， 除 上 述 特 点 之 外 ， 选 择 直接 执行 状态 机 并 不 会 优 于 基于 表格 的 实现 ， 即 便 采 用 了 一 
个 完美 散 列 函数 将 保留 字 的 识别 简化 为 字符 串 表 的 单个 比较 。 还 应 留意 到 ， 为 一 个 给 定 的 保留 
字 集 合 找 出 一 个 完美 散 列 函 数 所 花 的 时 间 远 多 于 构建 一 个 状态 机 识别 程序 .TAG 编译 程序 约 有 
一 半 时 间 花 费 在 将 FSA 转换 为 确定 的 扫描 程序 ; 另 一 半 时 间 几 乎 平均 花费 在 分 析 源 文法 ,以 及 
生成 输出 的 Modula-2 程序 文本 。 


10.8.5 TAG 编译 程序 的 语法 分 析 

5j scanner 部 分 相 比 , 将 一 个 TAG 源 文 法 剩余 的 两 部 分 编译 为 输出 代码 的 方法 相当 平淡 ， 
基本 遵循 第 4、5 章 介绍 的 过 程 。 这 些 部 分 被 分 析 并 转换 为 一 种 中 间 树 结构 ， 这 一 树 结构 记录 
了 为 一 个 扩展 了 正则 表达 式 的 上 下 文 无 关 文法 的 抽象 语法 。 非 终结 符 的 向 后 引用 充分 利用 了 已 
可 用 的 属性 类 型 信息 设置 由 这 些 引用 综合 出 来 的 局 部 属性 的 类 型 ， 非 终结 符 的 向 前 引用 中 的 类 
型 检查 〈 参 数 匹配 ) 推迟 到 代码 输出 阶段 才 执行 。 

在 分 析 源 文法 的 同时 ， 执 行 少量 数据 流 分 析 即 可 确定 一 个 属性 断言 到 底 是 一 个 应 求 值 为 
true 或 false 的 断言 , 还 是 一 个 应 编译 为 一 条 赋值 语句 的 属性 求 值 函数 ， 这些 数据 流 分 析 比 
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类 型 检查 稍 复杂 一 些 。 该 分 析 工作 利用 了 一 对 集合 ， 其 中 一 个 集合 由 所 有 已 被 赋值 的 标识 符 组 
成 ， 另 一 集合 由 可 能 被 赋值 、 也 可 能 不 被 赋值 的 标识 符 组 成 。 如 果 一 个 标识 符 的 首次 出 现 是 作 
为 一 个 非 终结 符 引用 返回 的 综合 属性 ， 或 该 标识 符 与 一 个 已 定义 的 属性 表达 式 比较 是 否 相 等 ， 
则 将 该 标识 符 同时 添加 到 两 个 集合 中 。 对 该 标识 符 的 后 续 引 用 会 在 已 赋值 标识 符 的 集合 中 找到 
该 标识 符 ， 因 而 这 些 引用 将 被 编译 为 等 式 断 言 ， 该 断言 的 失败 会 异常 终止 其 代码 片段 的 执行 。 
当 两 个 或 多 个 选项 在 闭 圆 括号 处 重新 汇合 时 ， 已 赋值 标识 符 的 集合 被 每 一 支 路 的 集合 的 交集 替 
f& 第 二 个 集合 则 通过 并 运算 合并 其 分 量 。 类 似 的 合并 将 星 号 表示 的 和 迭代 运算 的 结果 与 它 的 输 
送 集合 组 合 在 一 起 。 如 果 后 续 引用 的 一 个 标识 符 在 第 二 个 集合 中 ,但 不 在 第 一 个 集合 中 , 则 TAG 
编译 程序 将 报告 一 个 错误 。 标 识 符 的 另 一 集合 类 似 地 追踪 了 和 迭代 运算 的 属性 。 

TAG 编译 程序 为 变换 程序 以 及 分 析 程 序 中 不 读 入 输入 单词 的 非 终 结 符 创建 了 一 个 不 确定 
的 递归 下 降 分 析 程序 。 这 使 得 语义 驱动 的 分 析 程 序 构造 过 程 能 够 处 理 任意 复杂 的 属性 文法 ， 特 
别 是 编译 程序 设计 人 员 可 在 语法 上 书写 仅 检 查 语 义 性 质 的 空 非 终 结 符 ， 然 后 在 该 非 终结 符 被 调 
用 的 所 有 地 方 为 调用 结果 构建 一 个 选项 。 如 果 一 个 空 非 终结 符 的 语义 断言 检测 失败 ， 且 没有 明 
确 的 报错 消息 ， 则 执行 过 程 从 该 非 终 结 符 退 回 ， 并 寻找 另 一 选项 。 如 果 语 义 断 言 检测 失败 之 前 
已 读 入 了 一 个 单词 ， 或 读 单词 本 身 失败 ， 或 该 失败 定义 了 一 个 明确 的 报错 消息 ， 则 报告 一 个 语 
法 错误 并 终止 编译 过 程 。 

根据 文法 编译 得 到 的 代码 有 两 种 方法 可 在 断言 或 非 终结 符 引 用 失败 时 ， 从 一 个 迭代 、 选 择 
或 非 终结 符 规则 中 跳出 并 退回 。 最 简单 且 最 直接 的 方法 是 生成 一 条 条 件 分 支 语 名 或 Gomo 语句， 
在 每 一 潜在 的 失败 之 后 立即 跳 到 下 一 选项 或 适当 的 出 口 。 在 Modula-2 这 类 高 级 语言 中 ， 上 述 
实现 通常 可 编码 为 一 系列 嵌 套 的 IF 子 句 ， 但 这 样 的 编码 有 两 个 问题 。 最 严重 的 问题 是 高 度 结 
构 化 的 代码 使 得 如 果 第 一 个 选项 的 第 二 个 断言 失败 时 ， 难 以 调用 第 二 个 选项 ; 特别 是 考虑 到 在 
第 一 个 断言 失败 时 ， 第 二 个 断言 甚至 不 应 被 求 值 的 情况 。Modula-2 语言 的 条 件 语句 中 布尔 测试 
采用 显 式 的 短路 求 值 ， 因 而 这 样 的 代码 只 是 笨拙 一 些 ， 但 并 不 是 不 可 能 的 。 第 二 个 问题 是 许多 
Modula-2 语言 的 实现 强制 规定 了 可 编译 的 髓 套 语句 结构 的 层 数 , 而 一 些 合理 的 文法 可 能 会 产生 
数 百 层 子 句 深度 的 结构 。 

TAG 编译 程序 分 配 了 一 个 布尔 变量 用 于 保存 当前 成 功 的 状态 , 以 较 小 的 性 能 代价 避免 了 上 
述 两 个 问题 。 在 每 一 可 能 导致 失败 的 语句 之 后 的 代码 周围 ， 都 对 该 变量 进行 简单 的 测试 。 由 于 
每 一 测试 都 是 直接 包围 的 ， 故 对 该 标志 的 测试 次 数 比 基于 coro 语句 的 实现 中 的 测试 更 多 ， 但 
这 对 于 序列 结构 或 嵌 套 结构 是 没有 问题 的 。 此 外 ， 具 有 良好 优化 技术 的 编译 程序 〈 本 书 毕 况 是 
一 本 关于 编译 程序 设计 的 教材 ) 可 应 用 分 支 链 客 孔 优化 技术 , 生成 恰好 与 嵌 套 条 件 语 句 同样 (最 
优 ) 的 代码 。 

代码 清单 10.5 展示 了 TAG 编译 程序 中 代码 生成 部 分 的 最 重要 内 容 。 只 要 充分 参阅 附录 B, 
读者 自己 构造 一 个 编译 程序 前 端 应 该 不 会 遇 到 什么 困难 ; 该 前 端 构 建 的 树 将 由 变换 程序 平展 为 
代码 。 这 一 实验 项 目 留 作 本 章 的 一 个 练习 。 


_ 代码 清单 10.5 TAG 编译 程序 中 代码 生成 程序 的 文法 


BuildParser lenv:table 


— «nt link inh der atts body»$name { 一 个 非 终 结 符 的 子 树 } 





302 # 10 Ë 
["PROCEDURE "; spell name; "(") { 生成 过 程 的 头 部 } 
inh:VarList false lider 4 <>) { 继承 属性 } 
der:VarList true lfalse { 综合 属性 } 
["): BOOLEAN; FORWARD;"] 
link:BuildParser Jenv { 处 理 其 他 头 部 } 
["PROCEDURE "; spell Jname; "(") { 再 次 生成 过 程 的 头 部 } 
inh:VarList lfalse l(der # <>) ( 继承 属性 } 
der:VarList Jtrue lfalse { 综合 属性 } 
["): BOOLEAN; VAR ok: BOOLEAN;"] 
atts:VarList Jfalse Jtrue { 输出 局 部 属性 的 声明 } 
["BEGIN ok := TRUE;"] 
body:Flatten Jenv { 将 过 程 体 树 平展 为 代码 } 
["; RETURN ok END"; spell lname; ";"] { THAR } 
一 <> ; { 列表 的 结尾 } 
Flatten lenv:table { 生成 一 条 语句 ) 
> «ca left right» { 连接 运算 的 结 点 ..。} 
left:Flatten lenv { 平展 左 子 树 ) 
["IF ok THEN"] 
right:Flatten lenv { 平展 右 子 树 } 
["END; "] 
> «al left right» { 选择 运算 的 结 点 ..。 } 
left:Flatten lenv { 平展 左 子 树 } 
("IF NOT ok THEN ok := TRUE;"] 
right:Flatten lenv { 平展 右 子 树 ) 
[" END; "] t 
> «st body» { 闭 包 运算 的 结 点 ... } 
"WHILE ok DO"] 
body:Flatten lenv { 平展 迭代 体 的 子 树 } 
["END; ok := TRUE;"] 
一 «tk <>>%tokn { 字符 串 文字 量 单词 引用 } 
["ok := MatchToken("; number tokn; ");"] 
— «tk parms:«at ..>>%tokn { 带 属性 的 单词 引用 ... 3} 
["ok := MatchTok"; number tokn; "(") 
parms:DoArgs lenv ltrue lfaise l«» Txx Tpost 
["];"] 
post:Flatten Jenv { 平展 后 置 断言 } 
一 «nt send recv>%name ( 非 终结 符 的 引用 ... 3 
["ok := nt"; spell Jname; "("] 
send:DoArgs lenv lfalse l«» Tcoma Tpostx 
recv:DoArgs lenv lcoma lpostx Txx Trost 
["] ; "] 
post:Flatten lenv { 平展 后 置 断言 } 
一 «cs link body»£num { 选择 运算 的 情况 选择 符 ... } 


link:Flatten lenv 


{ 


平展 表 的 剩余 部 分 } 
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[" | "; number linum; *: "] 
body:Flatten lenv 


一 «as expt thev» 
thev:GetVarType lenv Ttipe 
thev:ShoVar 
[" := "] 
expt:Flattex lenv ltipe Txx 
[';"] 


3 «mt expt» 
["ok t= "] 
expt:Flattex benv 12 Txx 
[";"] 
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{ 平展 选择 体 的 子 树 } 
{ 赋值 语句 的 结 点 Ll) 


{ 平展 表达 式 的 子 树 } 


{ 平展 表达 式 的 子 树 } 


一 <> ; { 无 代码 } 
ShoType Jneedsem:bool 
一 <ty>%tipe 
([tipe = 1; ": INTEGER" ] | [tipe = 2; ": BOOLEAN"] | [tipe = 3; ": Tree"]) 


([needsem = true; ";"])? 


, 


VarList ineedvar:bool lneedsem:bool 


一 ident:«at link tipe» | ident:«vr link tipe» 


link:VarList Jneedvar Jtrue 

([needvar = true; "VAR "])? 
ident:ShoVar 
tipe:ShoType Jneedsem 


3 «at ..>%name 
['at"; spell lname] 


一 «vr ..>%name 
['vr"; spell Jname] 


一 «tv ..>%varno 
["tv"; number lvarno] ; 


Flattex lenv:table Jmustype:int Ttypex:int 


一 thev:«vr ..> | thev:«at ..» | thev:«tv . 


thev:GetVarType lenv Ttypex 
thev:ShoVar 


C 按 列表 的 逆序 执行 ) 


{ 列表 的 结尾 } 


{ 继承 属性 或 综合 属性 } 


{ 局 部 属性 } 


{ 编译 程序 生成 的 临时 变量 } 


{ 为 表达 式 的 树 生 成 代码 ) 


.> | (C 属性 或 临时 变量 的 引用 ) 


[//"Attribute type mismatch"//; mustype * (mustype - typex) - 0] 


一 «cn <ty>%1l>%num 


{ 整数 常量 } 
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[number linum; //"This is Integer"//; mustype « 2; typex - 1] 


> «cn <ty>%3> { 空 树 常量 } 
["NIL"; //"This is a tree type"//; mustype * (mustype - 3) = 0; typex = 3] 


一 «cn <ty>%2>%0 { 布尔 常量 ... } 
["FALSE"; //"This is Boolean"//; mustype * (mustype - 2) = 0; typex = 2] 


3 «cn <ty>%2>%1 
['TRUE"; //"This is Boolean"//; mustype * (mustype - 2) - 0; typex - 2] 


一 «ng expt> { 一 元 求 负 结 点 ... 3 
c opt :Flattex lenv 11 Txx { 平展 子 树 } 
[")"; //"This type is Integer"//; mustype < 2; typex - 1] 

> «ad left right» { 加 法 结 点 ... } 
B ! leftiFlattex lenv 11 ftipe { 平展 左 子 树 } 
h * ight :Flattex lenv Jtipe Txx { 平展 右 子 树 } 
[")"; //"This type is Integer"//; mustype < 2; typex = 1] 

> «mp left right» { 乘法 结 点 ..，} 
ert iplattex lenv li Ttipe { 平展 左 子 树 } 
n) x m 
B right :Plattex Jenv ltipe Txx { 平展 右 子 树 } 
[")"; //"This type is Integer"//; mustype < 2; typex = 1] 

一 «eq left right» { 判断 是 否 相 等 的 结 点 ...} 
B  leftiFlattex lenv 40 Ttipe { 平展 左 子 树 } 
h ightiPlattex lenv ltipe Txx { 平展 右 子 树 } 


(")"; //"This type is Boolean"//; mustype * (mustype - 2) = 0; typex = 2] 
> oo... { 其 他 运算 符 ... } 


DoArgs Jenv:table lincoma:bool linpost:tree Toutcoma:bool Toutpost:tree 


一 «ax link expt post>%tipe { 生成 过 程 参 数 的 代码 } 
link:DoArgs lenv lincoma linpost Tcoma Tpostx 
expt:Flattex lenv Jtipe Txx { 平展 表达 式 的 子 树 ) 
([post = «»; outpost = postx] | [otherwise; outpost = «ca postx post»]) 
([coma = true; ", "])? 


[outcoma - true] 


=> <> [outcoma = incoma; outpost = inpost] ; ( 表 的 结尾 } 


代码 清单 10.5 中 的 非 终 结 符 DoArgs 需要 解释 一 下 。 它 用 于 将 一 个 过 程 调用 中 的 实 参 表 平 
展 为 Modula-2 语言 的 表达 式 和 变量 引用 。 对 于 一 个 继承 属性 而 言 ， 结 果 恰 好 就 是 平展 后 的 表 
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达 式 ; 对 于 一 个 综合 属性 而 言 ， 分 析 程 序 早已 确定 了 它 是 一 个 局 部 属性 的 定义 引用 ， 还 是 一 个 
限定 该 综合 属性 与 某 一 表达 式 的 值 相等 的 断言 。 如 果 它 定义 了 一 个 值 ， 则 表达 式 树 仅 由 局 部 变 
量 或 参数 的 名 字 组 成 ! 否则 ， 表 达 式 树 是 一 个 指向 编译 程序 生成 的 某 一 临时 变量 的 引用 ， 并 且 
后 置 断言 子 树 中 包含 了 判断 它 与 文法 中 指定 的 表达 式 相等 的 断言 代码 。 由 于 一 个 过 程 调 用 的 参 
数 按 这 种 方式 平展 , 后 置 断言 汇集 到 一 棵 树 中 ; 在 过 程 调用 返回 之 后 , 单独 将 该 树 平展 并 求 值 。 
每 一 后 置 断言 通常 具有 以 下 形式 : 


«mt «eq <tv>%123 expt>> 
这 一 断言 要 求 指定 的 临时 变量 (此 处 的 数字 1230 的 值 必须 与 指定 表达 式 的 值 相等 。 它 被 平展 
为 一 条 Modula-2 语句 后 ， 形 如 ; 


IF ok THEN 
ok := (tv123) = (expnvalue); 

END; 

代码 清单 10.5 中 的 文法 省 略 了 TAG 编译 程序 中 代码 生成 的 两 个 重要 方面 : 树 变换 和 出 错 
报告 。 这 两 方面 分 开 来 会 更 容易 理解 。 

10.3.6” 树 变换 

树 变换 包括 三 个 步骤 将 源 树 与 文法 模板 匹配 〈 分 析 源 程序 )、 构 造 奉 代 树 以 及 用 替代 树 
蔡 换 源 树 。TAG 编译 程序 中 使 用 了 三 个 库 例 程 支 持 这 些 功 能 。 替换 过 程 并 不 是 特别 困难 , 但 有 
必要 将 源 树 根 结 点 的 内 容 蔡 换 为 相应 的 替代 树 根 结 点 的 内 容 ， 从 而 对 源 树 的 其 他 引用 将 继续 引 
用 蔡 代 树 。 编 译 得 到 的 树 变换 非 终结 符 的 最 后 一 条 语句 是 调用 执行 这 一 替换 的 库 例 程 。 

树 的 构造 可 出 现在 属性 求 值 表达 式 中 ， 分 析 程 序 可 利用 该 表达 式 构建 原 中 间 代 码 树 ， 树 的 
构造 还 可 出 现在 一 个 变换 非 终 结 符 中 指定 一 棵 替代 树 时 。 构 造 过 程 借助 于 单个 库 函 数 完 成 ， 该 
函数 根据 分 量子 树 构建 一 个 结 点 。 作 为 返回 一 个 树 结 点 的 函数 ， 它 可 嵌 套 在 一 个 由 源 文法 的 树 
模板 结构 所 支配 的 结构 中 ， 这 简化 了 对 它 的 编译 。 在 编译 后 的 编译 程序 中 ， 一 条 赋值 语句 可 构 
建 一 棵 任意 复杂 的 子 树 。 假 设 所 有 结 点 最 多 只 有 四 棵 子 树 (用 NIL 表示 无 用 的 子 树 即 可 构建 更 
小 的 结 点 )， 该 库 例 程 具有 以 下 接口 : 

PROCEDURE Build(noden, nsubs: CARDINAL; decor: Tree; 

sl, s2, s3, s4: Tree): Tree; 

树 变换 文法 中 最 困难 的 部 分 是 识别 一 棵 给 定 的 树 何 时 与 文法 中 指定 的 模板 匹配 。 模 板 中 待 
匹配 的 每 一 结 点 必须 与 源 树 中 对 应 结 点 的 结 点 名 和 子 树 数目 均 相 同 〈 那 些 用 符号 “. . ”指定 为 
不 关心 的 子 树 除外 )。 模 板 中 用 一 个 标识 符 命名 了 的 子 树 应 赋值 给 间 名 的 局 部 变量 或 参数 ， 不 
管 该 名 字 是 否 作 为 附加 模板 结构 的 标签 。 

TAG 可 能 有 两 种 方法 解决 上 述 识别 问题 。 最 直接 的 方法 是 在 分 析 该 结构 中 的 每 一 结 点 时 ， 
将 指向 该 结 点 的 指针 赋值 给 一 个 临时 局 部 变量 , 然后 在 分 析 时 析 取 该 变量 , 以 取出 其 内 容 部 分 。 
带 名 字 的 树 结 点 被 赋值 给 指定 的 局 部 变量 ， 而 不 是 赋值 给 一 个 临时 变量 。 在 向 下 深入 到 其 内 部 
结构 之 前 ， 必 须 检查 每 一 结 点 的 结构 ， 以 避免 析 取 不 存在 的 子 树 指针 。 类 似 于 从 一 个 失败 的 选 
项 中 跳出 ， 这 里 也 出 现 了 编译 后 的 高 级 语言 代码 结构 问题 ， 这 虽 是 一 个 小 问题 ， 但 却 是 不 可 忽 
略 的 问题 。 

Fy 种 方法 要 求 使 用 个 或 多 个 布尔 类 型 的 库 过 程 ， 用 于 测试 源 树 的 各 个 细节 。 为 此 TAG 
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编译 程序 利用 了 单个 函数 TreePart, 如 代码 清单 10.6 所 示 。 该 函数 接受 的 参数 包括 一 个 指针 
《指向 源 树 的 根 结 点 和 一 个 数字 (该 数字 编码 了 树 结构 中 从 根 结 点 到 待 测试 细节 的 特定 路 径 》; 
如 果 有 目标 树 中 存在 这 一 完整 的 路 径 ， 且 指定 的 细节 能 够 匹配 ， 则 返回 true. 否则 返回 false. 
由 于 这 是 一 个 布尔 函数 ， 将 每 一 细节 的 测试 结果 连接 起 来 〈 使 用 AND 运算 符 )， 就 可 在 单条 条 
件 语句 测试 中 匹配 整个 结构 Modula-2 语言 的 布尔 表达 式 短 路 求 值 特 性 保证 了 只 要 有 一 个 细节 
匹配 失败 ， 整 个 测试 将 异常 终止 。 如 果 该 库 例 程 将 一 条 成 功 路 径 及 其 中 间 指 针 缓存 在 局 部 静态 
存储 器 中 ， 则 对 深层 嵌 套 的 相 邻 细节 进行 连续 测试 时 ， 可 充分 利用 先前 调用 中 已 完成 的 路 径 验 
证 和 指针 析 取 ， 从 而 可 进一步 提升 性 能 。TAG 编译 程序 也 可 能 保存 中 间 子 树 的 指针 (但 并 没有 
这 样 做 )， 并 基于 这 些 指针 开始 额外 的 测试 ， 而 不 是 每 一 次 都 从 根 结 点 开始 测试 。 


代码 清单 10.6 ”分 析 树 模板 中 一 个 细节 的 库 例 程 


TYPE 
Tree - POINTER TO Node; 
Node - RECORD 
nodename: INTEGER; 
decor: Tree; 
subtrees: ARRAY [1 .. 6] OF Tree 
END; 


PROCEDURE TreePart (TreePtr: Tree; Pathop, CompareTo: INTEGER; VAR ReTree: Tree): BOOLEAN; 
(* Pathop 的 含义 : 
1-6: 选择 一 棵 子 树 并 继续 
7; 返回 一 个 装饰 
8: 如 果 结 点 名 等 于 CompareTo 则 返回 TRUE， 否 则 返回 FALSE 
*) 
VAR 
index: INTEGER; 
result: BOOLEAN; 


BEGIN 
ReTree := TreePtr; 
result :- TRUE; 


WHILE result AND (Pathop > 7) AND (ReTree # NIL) DO 
WITH ReTree^ DO 
index :- Pathop MOD 8; 


Pathop :- Pathop DIV 8; 

IF (index - 0) OR (index - 7) THEN 
result :- FALSE 

ELSE 
ReTree :- subtrees[index] 

END 


END (* WITH *) 
END; (* WHILE *) 
IF result THEN 
IF ReTree - NIL THEN 
RETURN (Pathop - 0) AND (CompareTo « 0) 
ELSIF Pathop - 0 THEN 
RETURN ReTree^.nodename - CompareTo 
ELSIF Pathop - 7 THEN 
ReTree :- ReTree^.decor 
ELSE 
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二 二 -一 
ReTree := ReTree^.subtrees[Pathop] 
END (* IF ReTree *) 

END; (* IF result *) 

RETURN result 
END TreePart; 

代码 清单 10.6 中 的 库 例 程 将 路 径 编码 为 一 个 整数 ， 该 整数 划分 成 长 度 为 3 个 位 的 子 段 , 每 
一 子 段 指明 了 一 个 路 径 片 段 .长 度 不 超过 10 段 的 路 径 有 可 能 用 宿主 计算 机 中 的 32 位 整数 表示 ， 
(AEA HET 3 层 或 4 层 结 点 深度 的 树 模板 则 未 必 适 合 这 样 的 表示 ， 因 为 这 样 会 导 
致 可 读 性 较 差 。 长 度 为 3 位 的 段 可 表示 的 值 允许 选择 一 个 结 点 名 以 及 子 树 数目 、 一 个 装饰 、 或 
不 超过 6 棵 的 子 树 ， 必 要 时 ， 可 代 之 以 一 个 字符 串 常量 或 有 更 多 位 的 另 一 数据 类 型 ， 从 而 扩展 
其 表示 范围 。TAG 编译 程序 版 本 中 的 TreePart 利用 一 个 vag 参数 返回 指定 路 径 中 最 后 的 子 
树 ， 而 在 另 一 个 参数 中 接受 待 匹 配 的 结 点 名 的 值 。 

分 析 程序 负责 判断 源 文 法 中 的 一 个 树 模板 是 待 匹配 的 还 是 待 构造 的 ， 并 构建 一 个 适当 的 中 
间 树 以 表示 模板 的 结构 。 当 对 匹配 的 分 析 每 次 递归 携带 一 个 继承 属性 向 下 传递 时 ， 递 归 过 程 沿 
树 模板 下 降 ， 该 继承 属性 可 构建 对 一 条 路 径 进 行 编码 的 常量 。 因 而 ， 中 间 代 码 树 已 包含 了 在 一 
个 模板 匹配 条 件 语 句 中 生成 每 个 单独 的 细节 测试 所 需 的 所 有 信息 。 
10.3.7 语法 错误 停机 

在 编译 后 的 编译 程序 中 ， 令 人 满意 的 出 错 报告 会 对 源 文法 中 每 一 文法 形式 必须 生成 的 代码 
类 别 产生 深远 的 影响 . TAG 源 语言 提供 了 一 种 语法 形式 用 于 指示 错误 , 但 这 一 语法 形式 仅 适 用 
于 定义 它 的 结构 层次 中 。 

考虑 如 下 文法 片段 : 


[//"ErrorMessage1"//] 

DoSomething 

(ThisOrThat | [//"ErrorMessage2"//] OnTheOtherHand) 
(RepeatSomething) * 

SomethingElse 





如 果 DoSomething 或 SomethingElse 失败 , 将 报告 ErrorMessagei; {Hi ThisOrThat 
失败 ， 就 不 会 有 报错 消息 ， 除 非 onTheOtherHand 也 失败 ， 此 时 会 报告 ErrorMessage2 而 
不 是 BrrorMessage1。 如 果 RepeatSomething 失败 ， 也 不 会 有 任何 报错 消息 ， 因 为 迭代 
体 的 失败 是 终止 迭代 的 惟一 方法 。 还 应 注意 ， 如 果 其 中 一 个 非 终 结 符 包含 其 自身 的 报错 消息 规 
格 说 明 ， 则 它们 在 失败 时 将 使 用 这 些 报错 消息 ， 而 不 是 此 处 指明 的 消息 。 当 然 ， 此 处 展示 的 非 
终结 符 可 用 表示 局 部 语义 动作 的 方 括号 替代 ， 而 报错 消息 仍 可 以 同样 的 方式 应 用 : 这 也 是 理应 
如 此 。 

有 两 种 方法 可 让 一 个 出 错 声明 仅 在 局 部 起 作用 。 编 译 程序 可 追踪 当前 报错 消息 声明 的 作用 
域 ， 并 在 每 次 错误 测试 时 找到 正确 的 报错 消息 。 编 译 程序 也 可 定义 一 个 变量 用 于 保存 一 个 指明 
报错 消息 的 索引 ， 然 后 在 每 次 进入 一 个 新 结构 时 将 该 变量 压 入 一 个 栈 中 ， 并 且 在 退出 该 结构 时 
再 将 该 变量 从 栈 中 弹出 。 基 于 栈 的 方法 的 代码 更 慢 一 些 ， 但 稍微 更 紧凑 一 些 ， 并 且 相 同 的 栈 还 
可 用 于 实现 编译 程序 的 其 他 需求 〈 参 阅 练 习 8)。 


本 章 考 虑 了 Lisp 这 一 类 应 用 式 程 序 设 计 语言 的 编译 程序 设计 问题 ， 利 用 Scheme 语言 的 术语 介绍 了 
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与 应 用 式 语 言 相关 的 编译 程序 设计 问题 ，Scheme 语言 是 表 处 理 语言 Lisp 的 一 个 派生 语言 。 作 为 编译 程序 
设计 的 一 部 分 , 本 章 讨论 了 与 编译 一 个 可 使 用 的 程序 有 关 的 一 些 问 题 。 本 章 给 出 的 两 个 Tiny Scheme 语言 
文法 分 别 对 源 程 序 文本 进行 分 析 并 转换 为 表 ， 以 及 将 表 编译 为 Itty Bitty 栈 机 器 代码 。 

本 书 以 属性 文法 贯穿 了 整个 编译 程序 设计 过 程 ， 最 后 描述 了 基于 TAG 的 编译 程序 自动 构造 。 TAG 给 
出 了 一 个 程序 〈 即 编译 程序 ) 的 规格 说 明 ， 本 章 介 绍 的 TAG 编译 程序 是 一 个 自 编译 的 TAG， 它 将 一 个 变 
换 属 性 文法 转换 为 标准 的 Modula-2 代码 。 





applicative language〈 应 用 式 语 言 ) ”以 函数 应 用 为 惟一 控制 结构 的 程序 设计 语言 。 

atom (RF) Lisp 语言 中 的 一 个 原子 数据 〈 名 字 或 数字 )， 并 不 是 一 个 点 对 。 

call/cc 在 Scheme 语言 中 表示 以 当前 延 拓 调用 《call-with-current-continuation 的 缩写 )。 

car Lisp 或 Scheme 语言 中 的 一 个 函数 ， 提 取 一 个 点 对 的 左 子 树 ,或 一 个 表 的 第 一 个 元 素 。 习 惯 上 用 于 
表示 一 个 点 对 的 左 部 。 

cdr Lisp 或 Scheme 语言 中 的 一 个 函数 ， 提 取 一 个 点 对 的 右 子 树 ， 或 一 个 表 剔 除 第 一 个 元 素 后 的 剩余 部 
分 。 习 惯 上 用 于 表示 一 个 点 对 的 右 部 。 

cons Lisp 或 Scheme 语言 中 的 一 个 函数 ， 根 据 两 个 值 构造 一 个 点 对 ， 这 两 个 值 分 别 作为 点 对 的 左 、 右 
子 树 。 如 果 右 子 树 是 一 个 表 ，cons 扩展 该 表 的 方法 是 将 左 子 树 插入 到 右 子 树 的 前 面 。 

continuation GEH) ”一 个 部 分 求 值 函 数 ， 在 Scheme 语言 中 可 用 calce 捕获 。 

curry (Ek) ”将 一 个 含 多 个 参数 的 函数 转换 为 一 个 比 原来 参数 数目 更 少 的 函数 ， 返 回 的 另 一 个 函数 
可 应 用 到 一 个 或 多 个 ) 剩余 的 参数 。 

dotted pair CX) ”Lisp 语言 中 的 基本 数据 结构 。 

dynamic scoping (动态 作用 域 》 自由 变量 在 调用 环境 中 求 值 。 

free variable (HASH) ” 非 局 部 的 变量 。 

Lisp (Lisp 语言 ) J. McCarthy 于 1958 年 提出 的 一 种 应 用 式 程 序 设计 语言 。Lisp 表示 表 处 理 (List 
processing)， 常 用 于 人 工 智 能 研究 中 。 

Scheme (Scheme A) G. Sussman 和 G. Steele 于 1975 年 提出 的 一 种 Lisp 语言 变种 。 关 于 Scheme 
语言 的 简介 还 可 参阅 [Smith, 1988]. 

static scoping (ASARD 一 个 自由 变量 的 含义 取决 于 函数 声明 周围 的 程序 文本 ， 由 此 确定 对 该 变 
量 求 值 的 上 下 文 。 

tail-recursion〈 尾 递归 ) ”如 果 递 归 调 用 所 计算 的 值 在 递归 展开 时 不 加 修改 就 向 上 传递 ， 则 称 该 函数 是 尾 
递归 的 。 


1. 给 出 代码 清单 10.2 针对 以 下 程序 产生 的 分 析 树 表示 : 
(a) (lambda {x y) (cons y x)) 
(b) (cons x (cons x (cons y (cons y z)))) 
2. 给 出 等 价 于 以 下 Scheme 函数 的 尾 递归 函数 : 
(a) (define power (lambda (x y) 
(if (= y 0) 1 (* x (power x (- y 1)))))) 
(b) (define Fibonacci (lambda (n) 
(if (< n 2) 1 (+ (Fibonacci (- n 1)) (Fibonacci (- n 2)))))) 
3. HAY 2 BAN MRR AAMT GER) 形式 。 
4. 讨论 练习 3 中 过 程 的 优化 。 不 要 忘记 在 你 的 讨论 中 包括 所 有 新 的 或 所 需 的 过 程 。 
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5. 给 出 由 以 下 表达 式 构建 的 确定 有 穷 状态 自动 机 《DFSA)。 

(a G = aca[x] | baly] 
(b H = alx] | ba*c[y] | a*bc'[z 

6， 将 练习 5 得 到 的 确定 有 穷 状态 自动 机 中 的 停机 状态 转换 为 扫描 程序 的 读 变迁 。 

7. 为 IBSM 的 Scheme 编译 程序 编写 一 个 库 例 程 ， 该 例 程 将 任意 数目 的 参数 复制 到 栈 偏 移 量 位 置 之 下 指 
定数 目的 字 【〔 这 些 参数 将 取代 调用 者 自己 的 参数 );， 然后 为 代码 清单 10.2 中 的 文法 添加 一 个 非 终结 符 
railcal1， 该 非 终 结 符 将 一 个 尾 递归 编译 为 对 上 述 例 程 的 调用 。 

8. 为 非 终结 符 Flatten 添加 树 平展 的 代码 ， 使 得 它 为 Plus 迭代 运算 符 生成 正确 的 代码 。 注 意 Plus 
迭代 运算 要 求 在 因 一 个 失败 的 断言 检测 而 跳出 循环 之 前 ， 至 少 有 一 次 完整 的 迭代 〈 无 内 部 失败 ) 被 视 
为 成 功 的。 证 明 你 的 实现 同样 可 正确 地 处 理 幅 套 的 迭代 。 在 实现 时 ， 还 应 注意 在 栈 中 存放 单个 循环 控 
制 变量 与 分 配 多 个 临时 变量 〈 需 要 一 个 随 信息 流动 的 属性 对 它们 进行 计数 ) 这 两 种 设计 之 间 的 折 中 。 

复习 小 测验 

指出 下 列 陈述 是 否 正确 。 

1. 应 用 式 语言 允许 对 变量 赋值 ， 但 不 允许 函数 调用 。 

. Lisp 语言 中 的 算术 运算 采用 前 缀 (波兰 式 ) 表示 法 书写 。 

， 若 要 处 理由 和 表达 式 创建 的 函数 ， 则 Lisp 编译 程序 必须 在 运行 时 是 可 用 的 。 

.将 cons 函数 应 用 到 参数 表 ， 就 可 以 很 容易 地 编译 尾 递归 。 

， 针 对 变换 程序 以 及 那些 读 入 输入 单词 的 分 析 程序 非 终结 符 ，TAG 编译 程序 创建 一 个 不 确定 的 递归 下 降 
分 析 程 序 。 

6. TAG 是 一 种 数据 流 语言 。 

7. TAG 的 transformer 部 分 在 一 个 上 下 文 无 关 的 树 变换 属性 文法 中 定义 了 待 编译 的 编译 程序 的 代码 

优化 和 代码 生成 需求 。 

8. 一 个 TAG 恰好 有 两 个 语法 组 成 部 分 ，scanner fil parser. 

9. TAG 是 一 种 非 过 程式 的 程序 设计 语言 。 

10. HA f(x) Ke BK. 
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附录 A Itty Bitty Modula 语法 图 
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fik: 


1. 尽管 Modula-2 语言 标准 要 求 在 文法 的 某 处 有 一 个 标识 符 ， 但 在 语法 上 可 允许 任意 的 类 
型 指示 符 ， 并 且 仍 可 拒绝 错误 的 程序 。 约 束 程序 应 拒绝 此 处 匿名 声明 的 所 有 复合 类 型 ， 因 为 该 
函数 的 值 不 可 能 组 成 类 型 正确 的 用 法 。 

2. 标识 符 以 一 个 字母 开头 ， 并 可 包含 字母 和 数字 ， 标 识 符 的 大 小 写 是 有 意义 的 。 

3. 运算 符 的 优先 级 为 : 

( ) 


NOT 
* AND 
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statementlist 


Geant) > > spe} —À 
expression 






expression 





5. 尽管 本 附录 的 语法 图 允许 ， 但 “- NOT a” 是 非法 的 。 通 常 可 认为 这 在 语法 上 是 正确 
的 ， 但 在 约束 程序 中 可 阻止 这 一 用 法 。 

6. 注释 和 空白 通常 由 扫描 程序 删除 。iltty Bitty Modula 语言 的 注释 以 “(*” 开 头 、 以 “*)” 
结尾 ， 其 中 可 包含 任意 字符 ， 包 含 “(”“)” 和 “*” 但 不 可 包含 “(*” 或 “*)”。 









declarations 
ORO i) Sto 









CS) 
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译 程序 。 它 还 可 作为 一 个 良 构 的 TAG 实例 。 


WRB TAG 编译 程序 的 TAG 


尽管 TAG 编译 程序 作 一 种 研究 工具 仍 在 不 断 演化 中 ， 但 它 依然 既 可 作为 变换 属性 文法 
(TAG) 的 形式 化 定义 ， 也 可 作为 将 TAG 翻译 为 Modula-2 语言 的 一 个 编译 程序 源 代码 。 此 处 
的 代码 清单 定义 了 TAG 的 完整 语法 ， 并 给 出 了 足够 的 语义 使 得 读者 可 构建 一 个 可 用 的 TAG 编 


代码 清单 B.1 


TAG 编译 程序 的 TAGS 





tag TagGrammar: 


ca, 
ne, 


rt, 


{tree node names} 
type node(no, ty, gl, fn, tk, nt, st, pl, qu, tr, ac, at, mt, ot, 
(16) xf, bt, er, al, ca, qm, dl, rp, dr, vr, as, eq, 1s, gr, 
(31) an, or, ad, su, mp, dv, md, ng, tv, rn, nn, nc, co, sa): 
( node names: 

Xac -- not used «dr -~ not used 

<al alternation <eq equate 

<at param defn, ref <ls less than 

<bt build tree «rp -- not used 

«ca concatenate <tr scanner transition 

<cn constant «ty type 

«dl dollar iteration <vr local variable 

<er error code «xf transform tree 

<fn function defn, call <gr greater 

«gl global var <ne not equal 

«mt "must true" asserts its subtree <an and 

<no not, also data structor «or or 

«nt nonterminal defn, call «ad add 

«ot output text <su subtract 

<pl plus iteration <mp multiply 

<pl plus op <dv divide 

«qm -- not used <md mod 

«qu -- not used «ng negative 

<rt recognize subtree «tv temporary tree variable 

<sa scanner attribute «rn -- not used 

«st star op <nn typecast 

<tk token defn, call «nc nonterminal call 

«as assignment <co type constant } 
funct (predefined in virtual compiler machine) 

newsetlist ^int: (allocates set list, returns empty set) 


newnewset !int ^int; 


uniquenew !int “int; 
addnewset (int !int; 
newinset ‘int ‘int; 


!set ^tree; 
Itree “set; 
Itree “int; 
tint “tree; 
itree “table; 


settree 
treeset 
treeint 
inttree 
treetab 


{creates empty set in set list} 
(return first =set, dispose old if dupe} 
(add value to set in place) 


[returns exp from «exp») 


treecopy !tree ^tree; (to get past tag compiler type fault) 


charval “int; 


O 附录 了 B 的 代码 清单 存在 一 些 缺陷 ， 有 兴趣 的 读者 可 参阅 作者 工 Pitman 新 开发 的 TAG 编译 程序 (该 编译 程序 改 为 
生成 C 语言 而 不 是 Modula-2 语言 的 代码 )， 详 见 :http://www ittybittycomputers.convIttyBitty/TAGC/TAGinfo.html。 
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initbl; 

addtbl !int; 

strindex “int; 

addset !int !set “set; 

union !set !set “set; 

intersect !set !set “set; 

difference !set ‘set “set; {first - second) 

inset !int !set; (fails if not) 

notinset !int !set; 

newelt !set “int; {returns a value not in the set} 
into !int !table !tree “table; 

from !int !table ^tree; 

nothere !int !table; (fails if in table) 

length !int “int; {length of indexed string or ident} 


charfrom !int 'int “int;  (i,s: char(i) from string (s), 0-based} 


spell ‘int; (output identifier or string) 
number !int; (output decimal value) 
ascii !int; 


opentext; 
closetext; 
scanner 
ignore 
-> oN pan 
> 
STR ^strg:int 
-> [initbl] "'" (" ".."&"|"(".."-" [charval^this][addtbl!this])* "'" 
[strindex^strg] 
-> (initbl] '"' (" ".."!"|"j4".."-" [charval^this][addtbl'this])* '"' 
[strindex^strg];: 


ID ^ident:int 
-> [initbl] ("a".."z"|"A".."Z") [charval^this][addtbl!this] 
(("a".."2"|"A".."Z"|"0".."9") [charval^next] [addtbl'next])* 
[strindex^ident]:; 
NUM ^valu:int 
-> [valusO] ("0".."9" [charval^this; valu@=valu*10+this-~48]) +; 


parser 
TagGrammar 
-> "tag" ID ^tagname “:" 

[into !1 !vacant !«ty»$1 ^envl] {int} 
[into !2 !envl !<ty>%2 ^env2] {bool} 
[into !3 !env2 !«ty»$3 ^env3] (tree) 
[into !4 !env3 !<ty>%4 *env4] (set) 
[into !5 !env4 !<ty>%5 ^env] [table) 


(defd=empty; toksempty; hist=0] 
startoutput !tagname 
(decln !env !defd “env@ “defd@)* 
dolibrary ‘env 


("procedure mainprogram;"; addset !0 !empty ^newtok; trans=<>] 


packattributes !env 'defd 'empty Inewtok ‘trans !0 “data 
{attributes: symtable, def'd, redef'd, tokens, trans, histate] 


("scanner" 
("ignore" 
("-»" scanre !data !0 !0 ^dtran ^xst 
newtran !dtran !xst !0 !ampty !<> !0 “data@)+ ";")? 
(ID ^name 
[der-«»; newelt !tok ^newtok; addset !newtok 'tok “tok@) 
[//"token name already defined"//; notinset !name 'defdj 
[addaet 'name 'defd “defdé@} 
[into !name !env !entry:«tk» ^lenv; envé=lenv] 
(derives 'der !data !newtok “der@ “dataé@)* 
entry:redacorate !newtok !der 
("-»" scanre !data !0 !newtok “data@ “xst 
Ger: isdefined !detx 
finttree !xst ^xstt] 
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[trans@=<tk otran xstt <no>tname >tentry))+ ";")4)? 


("parser" (parsrule !data “data@) +)? 

("transformer" (tagrule !data “data@) +)? 

buildscanner !data ^pdata ^nst ^ncs 

buildparser !pdata ^bdata 

[bdata:«no benv bdef bred btok btran>] 

[//"There is no goal symbol"//; from !tagname !benv ^«nt ..»] 
finishoutput !tagname !nst !ncs 

"end" ID ^endname [endnamestagname] "."; 


decln 'insym:table !indef:set ^outsym:table ^outdef:set 
-> "type" (outsym=insym; outdefzindef] 
(ID ^tname 

[//"type name already defined"//] 
[notinset !tname !outdef; addset !tname !outdef ^outdefG] 
[ànto !tname 'outsym !tipe:«ty»&tname ^outsym8] 
("(" (XD^idn 
[//"value already defined"//] 
[notinset !idn toutdef; addset !idn !outdef ^outdefG] 
[into !idn foutsym !<co tipe »$idn ^outsym8])$"," ")" )?)$"," ";" 


-> "global" [outsym=insym; outdefrzindef] 
(ID ^consname 
{//"global name already defined"//] 
[notinset !consname !outdef; addset !consname !outdef ^outdefG] 
(":" typename !outsym “ctype [value=xconsname] 
j"z" (NUM^value [idn=1] | "<>" [idn*3; values] 
|"false" [idn=2; valuemfalse]|"true" [idnz2; valuertruel) 
[from !idn !outsym8 ^ctype]) 
[into !consname !outsym !<gl ctype value» ^outsymé] 
globalname !consname 'ctype ";")* 


-> "funct" [outsymeinsym; outdeafsindef] 
(ID ^functname [inh=<>; der=<>] 
[//"function name already defined"//) 
[notinset !functname !outdef; addset !functname !outdef “outdef@) 
("!" typename !outsym “ity 
[inh@=<at inh <> ity »])* 
("*" typename foutsym ^dty 
[der@=<at der <> dty »])* 
[into !functname !outsym !<fn inh der» ^outsym8)] ";")*; 
typename !env:table ^atype:tree 
-> ID ^idn (//"invalid or undefined typa"//; from !idn !env ^atype:«ty»] 
-> "table"[from !5 !env “atype] 
-» "set" [from !4 !env ^atype] 
-> "int" [from !1 'env “atype] 
-» "bool" [from !2 !env ^atype] 
-» "tree" [from !3 !env ^atypel: 


scanre !indata;table 'fromst:int !toknno:int “outdata:table “tost: int 
-> scanalt !indata !fromst !toknno ^outdata “tost 
("]" splitalt !indata !outdata ^xdata 
scanalt !xdata !fromst !toknno ^tdata ^xst 
newtran !tran !xst !tost !empty !<> !toknno “outran 
joinalt !outdata !tdata ^outdatag)*; 


scanalt !indata:table !fromst:int !toknno:int ^outdata:table ^tost:int 
-> [tostzfromst; outdata-indata] 
(scanterm foutdata !tost !toknno ^outdata8 “tosté) *; 


scanterm !indata:table !orgst:int !toknno:int ^cutdata:table ^tost:int 
-> "(" unpackatts !indata ^inenv ^indef ^inred ^intok “intran ^inhist 
(fromst=inhist+1] 
newtran !intran !orgst !fromst !empty !<> !toknno ^itran 
initer !data “xdata . 
scanre !xdata !fromst !toknno ^odata ^xst ")" 
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({outhist=ohist+1; tost=outhist] 
newtran !xtran !xst !tost ‘empty !«» !toknno ^otran 
("*" newtran !otran !xst !fromst ‘empty !<> !toknno ^ntran 

newtran !ntran !fromst !xst !empty !«» !toknno ^outran [kind=3] 
|"*" newtran !otran !xst !fromst ‘empty !«» !toknno “outran [kind=2] 
|"?" newtran !otran !fromst !xst !empty !«» !toknno ^outran [kind=1]) 
exiter !kind !indata !odata ^outdata 
lexiter !0 !indata !odata ^outdata 

[tost-xst]) 
-» CHR^loch 
unpackatts !indata ^env ^defd ^redef ^tok ^tran ^hist 
[addset !loch 'empty ^onch; tostzshist*1] 
(".." CHR^hich ([loch<hich; loch8sloch41; addset !loch@ !onch ^onch8])*)? 
newtran !tran !orgst !tost !onch !<> !toknno ^ntran 
packattributes !env !defd !redef !tok !ntran !tost ^outdata 
-> [tdatazindata; acts=<>] 

"[" (scanact !tdata !toknno “tdata@ ^anact [actsés«ca acts anact »])$';" 
"J" unpackatts !tdata “env ^defd ^xred ^xtok ^xtran “hist  [tost-hist41] 
newtran !xtran '!orgst !tost !empty !acts !toknno ^outran 
packattributes ‘env 'defd !xred !xtok 'outran !tost ^outdata; 


CHR ^char:int 
-> STR ^strg 
{length !strg ^strlen] 
([strlen=0; char=0]|[strlen=1; charfrom !1 !strg ^char]): 


scanact !indata:table !toknno:int ^outdata:table “anact : tree 
-> ID^name unpackatts !indata ^inenv ^indef ^redef “tok “tran “hist 
(("8" [notinset !name !redef; inset 'name 'indef; tenv=inenv] 
[//"invalid iterator reference"//) 
([from !name !tenv “thev:<at ..»] 
| (from !name 'tenv “thev:<sa . .>] 
|l [from !name !tenv “thev:<vr ..>]) 
[ndef=indef; addset !name !redef ^nred; vtran=tran] 
l(Inothere !name !inenv; into !name finenv !thev:«sa toknno»$name ^tenv] 
1 [tenv=inenv from !name !tenv “thev:<at ..>; vtran-tran]) 
[//"name already defined"//] 


[notinset !name !indef; addset !name !indef “ndef; nred-redef]) 
packattributes !tenv !ndef !nred !tok !vtran ‘hist ^odata 
"m" expn !0 !odata ^outdata ^exptr ^expty 

[anact=<as exptr expty thev>] 
| [//"invalid action call"//; from 'name !inenv ^fun:«fn inh der»] 
sends !inh !indata !<> ^sarg ^sdata 
xecvs !der !sdata !«» !toknno ^rarg ^outdata 

[anactsz«fn sarg rarg »*name]): 


parsrule 'indata:table ^outdata:table 
-> [outdatazindata] 

ID^name [der=<>; inh=<>; ldatazoutdata] 
{inherits !inh !ldata ^ 人 inhe “ldata@) * 
(derives 'der !ldata !0-1 “der@ ^ldata@)* 
"-»" parsre !ldata ^rdata ^ptree 
("->° splitalt !ldata !rdata ^xdata 
parsre !xdata ^zdata ^prp 
joinalt !rdata !zdata ^rdatae 
[ptreeüz«al ptree prp »J)* 

[ttreew«nt «no inh der >%0 ptree >tname] 
";" datamerge 'outdata !rdata ^exdata 
newdefine {name 'exdata 'ttree ^outdata& ; 


parsre 'indata:table ^outdata:table ^outree:tree 
-» parsalt !indata ^outdata ^outree 
("|" splitalt !indata !outdata “xdata 
parsalt !xdata ^zdata ^nutree 
jeinalt !outdata !zdata “outdataé 
[outree@=<al outree nutree »])*; 
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parsalt !indata:table “outdata:table ^outree:tree 
-> [outdata-indata; outree=<>} 
(paraterm !outdata ^outdataG ^nutree 
{outree@=<ca outree nutree »])*; 


parsterm 'indata:table ^outdata:table “outree:tree 
-> initer !indata ^ndata 
parsfact !ndata ^odata ^xtree 
("*" [kind=3; outree=<st xtree >; xdata=odata] 
|"*" [kind=2; outrees«pl xtree >; xdatarodata] 
{"?" (kind=1; outree=<al xtree <>>; xdata=odata] 
|"$" partoken !odata ^xdata “nutree ^tokn 
[xind=4; outreec«dl xtree nutree >ttokn ] 
| {kind=0; outreesxtree: xdataszodatal) 
exiter !kind !indata !xdata “outdata 
-» ID^tname 
([from !tname 'indata ^«tk der >%tokn] 
recvs !der !indata !«» !0-1 ^rarg ^outdata 
foutree=<tk rarg >%tokn] 
| semantix !tname 1<> !indata “outdata ^outree ) 
-> semantix !0 !«» !indata ^outdata “outree ; 


parsfact !indata:table ^outdata:table ^outree:tree 
-> "(" parsre !indata ^outdata ^outree ")" 
-> partoken !indata ^outdata ^outree “tokn; 


partoken !indata:table ^outdata:table ^outree:tree ^newtok:int 
~> STR^strng 
unpackatts !indata ^env ^indef ^redef ^intok ^otran ^hist 
[//"empty token string"//; length !strng “len; len>0] 
[newtoksstrng; outree=<tk <>>tnewtok] 
([notinset !strng !intok; addset !newtok !intok ^outok) 
[chaznos0; xst=0] 
([charno«len; charfrom !charno !strng ^thisch; charnoüzcharno*i] 
[addset !thisch !empty ^onch; histé@shist+1] 
newtran fotran !xst !hist@ 'onch !<> !0 “otran@ [xst8zhistQ])* 
[entry=<tk <>>tnewtok] 
[inttree !xst ^xxst; outran=<tk otran xxst <st>tstrng »*entry] 
| otherwise; outoksintok; outransotran]) 
packattributes !inenv !indef !redef !'outok !outran !hist ^outdata; 


tagrule !indata:table ^outdata:table 
-> [outdata=indata] 

ID^name [der-«»; inh=<>; ldata=outdata] 
(inherits !inh !ldata “inh@ ^ldatag)* 
(derives !der !ldata !0-1 “der@ “ldata@)* 
"=>" tagre !ldata ^rdata “ptree 
("-»" xformto !ptree !rdata ^rdataü ^ptreed )? 
("->" splitalt !ldata !rdata ^xdata 
tagre !xdata ^zdata ^prp 

("=>" xformto !prp !zdata “zdata@ “prp@ )? 

joinalt !rdata !zdata “rdataé@ 

[ptree@=<al ptree prp >])* 

[ttrees«nt «no inh der »*1 ptree »$*name] 
";" datamerge !outdata !rdata ^exdata 
newdefine !name 'exdata !ttree “outdata@ ; 


tagre !indata:table ^outdata:table ^outree;tree 
-» tagalt !indata ^outdata ^outree 
("|" splitalt 'indata !outdata ^xdata 
tagalt !xdata ^zdata ^nutree 
joinalt ‘outdata !zdata “outdata@ 
{outree@=<al outree nutree »])*; 


tagalt !indata:table ^outdata:table ^outree:tree 
-> "(" tagre !indata ^outdata ^outree ")" 
-> recogtree !0 !1 !«» !indata !0-1 ^outdata “comp 
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[outreez«mt comp») 
(semantix !0 !outree !outdata ^outdata8 ^outreeG )*; 


xformto !intree:tree !indata:table ^outdata:table ^outree:tree 
-> expn !0 !indata ^outdata “etree “exptype 
lookup !3 !indata ^exptype 
[outree=<ca intree «xf etree»»] 
(semantix !0 !outree 'outdata “outdatas ^outree8 )*; 


semantix fidn:int !intree:tree 'indata:table ^outdata:table ^outree:tree 
-> [idn#0; indata:«no inenv indef inred intok intran »*inhist] 
lookup !3 !indata ^trtr 
( ":" ID^ntname 
( [from !idn 'indata “tren:<vr trty>] 
| [from !idn 'indata ^tren:«at lnk vrv trty»]) 
( [trtysztrtr] | [txrty=<>] tren:retype !trtr ) 
| [ntname-zidn; tren=<>] ) 
( [from !ntname '!indata ^ntdef:«nt «no inh der »*kind ptree >] 
((ntname=idn; kindz0] | [ntname#idn; kind=1]) 
| [inh=<no >; der-inh] ) 
sends !inh !indata !<> ^sarg “tdata 
recvs 'der !tdata !<> !0-1 ^rarg ^outdata 
[outzee=<ca intree ntree:<nt sarg rarg tren »$ntname >] 


-> "(" 
[outree=intree] 
(action !outdata !0-1 ^outdata8 “nutree 
foutree@=<ca outree nutree »])$";" "]" 


-> ID“tname [idn=0] 
semantix !tname 'intree !indata ^outdata ^outree ; 


initer !indata:table ^outdata:table 
-> unpackatts !indata “env ^defd ^redef “tok “tran “hist 
packattributes fenv !defd ‘empty !tok !tran !hist ^outdata; 


exiter !kind:int 'indata:table !exdata:table ^outdata:table 
-» unpackatts !indata ^inenv ^indef ^redef ^tok ^tran ^hist 

unpackatts ‘exdata ^xenv ^xdef ^xred ^xtok ^xtran ^xhist 
({kindwkind/2*2; odefaxdef} | [kind>kind/2*2; union !indef !xred ^odef]) 
({kind>0) | [kind=0; //"G-identifiers not in iterator"//; xred=empty]) 
{ored=redefj] (*** used to be: union !redef !xred ^ored ***) 
[difference !xdef !indef “nudef; intersect !nudef !xred ^empty] 

packattributes !xenv !odef !ored !xtok !xtran !xhist ^outdata; 


splitalt !indata:table !exdata:table ^outdata:table 
-» unpackatts !indata ^inenv ^indef ^redef ^tok ^tran ^hist 
unpackatts 'exdata ^xenv ^xdef ^xred ^xtok ^xtran “xhist 
packattributes !inenv !indef !redef !xtok !xtran !xhist “outdata; 


joinalt !indata:table !exdata:table ^outdata:table 
-» unpackatts !indata ^inenv ^indef ^redef ^tok ^tran ^hist 
unpackatts !exdata ^xenv ^xdef ^xred ^xtok ^xtran “xhist 
{intersect !xdef !indef ^odef; intersect !xred !redef ^ored] 
packattributes !xenv !odef !ored !xtok !xtran !xhist ^outdata; 


newdefine !name;int !indata:table !value:tree ^outdata:table 
-> unpackatts !indata ^inenv ^indef ^redef “tok “tran “hist 
[//"name already defined"//] 
[nothere !name 'inenv; notinset !name !indef] 
[into !name !inenv !value ^outenv; addset !name '!indef ^outdef] 
[(outrans«nt intran value »$name] 
packattributes !outenv !outdef !redef !tok !tran !hist ^outdata; 


derives !inatt:tree !indata:table !toknno ^outatt:tree ^outdata:table 
-> "^" unpackatts !indata ^inenv “def ^redef “tok “tran “hist 
ID^idn ":" typename !inenv ^tipe 
[//"attribute name already defined"//) 
[nothere !idn !inenv; notinset !idn !def]j 
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[outattz«at inatt <tk>%toknno tipe>tidn; 
into !idn !inenv !outatt ^outenv] 
packattributes 'outenv !def !redef !tok !tran !hist ^outdata; 





inherits !inatt:tree !indata:table ^outatt:tree ^outdata:table 
-» "!" unpackatts !indata ^inenv ^indef ^redef ^tok ^tran ^hist 
ID^idn ":" typename !inenv ^tipe 
[notinset !idn findef; addset 'idn !indef ^outdef]j 
[//"attribute name already defined"//; nothere !idn !inenv] 
foutatt=<at inatt <> tipe>tidn; into !idn !inenv foutatt “outenv] 
packattributes 'outenv !outdef !redef !tok !tran 'hist ^outdata; 


sends !formal:tree 'indata:table '!intree:tree ^actual:tree ^outdata:table 
-> ( [formal:«no») 

("!" expn !0 !indata ^tdata ^exptr ^expty 
sends !formal !tdata !«at intree exptr expty» ^actual ^outdata 
| {otherwise; outdatasindata; actual=intree] ) 

| [formal:<at nextf vrv tipe >] 
sends !nextf !indata !intree “xtree “xdata 
"t" expn !O !xdata ^outdata ^exptr “expty 
([expty#<>; //"attribute type mismatch"//; exptystipe])? 
[actualz«at xtree exptr tipe>] 

| [formal=<>; outdata=indata; actual-intree]):; 


recvs !formal:tree !indata:table 'intree:tree 'toknno:int 
^actual:tree ^outdata:table 
-> ( [formal:«no»; tipes«»] lookup !3 !indata ^trty 
(n^n 

(ID ^idn 

(":" 

newvariable !true !idn 'indata !trty 'toknno ^tdata ^thevar ^wasdef ^vartype 
recogtree !0 !1 !thevar !tdata !toknno ^odata “comp 


[exptrz«ca thevar «mt comp >>; wasdef=<>] 
|newvariable !true !idn !indata !tipe !toknno ^tdata ^thevar ^wasdef ^vartype 


([wasdefz«»; odata-tdata; exptr=thevar] 
I (otherwise; odata=tdata; 


exptr=<ca thevar <mt «eq wasdef thevar >>>])) 
|newvariable !true !0-1 !indata !trty !toknno ^tdata ^thevar ^wasdef “vartype 


recogtree !0 !1 !thevar !tdata !toknno ^odata “comp 
[exptrs«ca thevar «mt comp >>]) 
recvs !formal !odata !«at intree exptr vartype> !toknno “actual ^outdata 
| fotherwise; outdatasindata; actualzcintree]) 
| [formal:«at nextf vrv tipe >; trtystipe] 
recvs 'nextf !indata !intree !toknno ^xtree “tdata 
( ID ^idn 
(ut 
newvariable !true 'idn !tdata !trty !toknno ^odata ^thevar ^wasdef ^vartype 
recogtree !0 !1 !thevar !odata !toknno ^outdata ^comp 
[exptrz«ca thevar «mt comp >>; wasdef=<>] 
[newvariable !true !idn !tdata !tipe !toknno ^odata ^thevar ^wasdef ^vartype 
([wasdef=<>; outdatasodata; exptr=thevar] 
| [otherwise; outdatazodata; 
exptr=<ca thevar «mt «eq wasdef thevar >>>])) 
| newvariable !true !0-1 !tdata !trty !toknno “odata “thevar “wasdef “vartype 
recogtree {0 !1 !thevar !odata !toknno “outdata “comp 
[exptrz«ca thevar <mt comp »»]) 
{actual=<at xtree exptr vartype»] 
| [formal=<>; outdataxindata; actual=intree)); 


nan 


action !indata:table !toknno:int ^outdata:table ^outree:tree 
-» ID^name (assigns or asserts or predeclared function call) 
[indata:«no inenv indef redef tok tran >thist] 
( "à" ([notinset !name !redef; asn-true]|[otherwise; asn-false]) 
[inset !name !indef} [//"invalid iterator reference"//] 
([from !name !inenv “thev:<at ..>]| [from !name 'inenv “thev:<vr ..»] 
i [from !name !inenv ^thev:«sa . .>]) 
| ([notinset !name 'indef; asn=true] 
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([nothere !name 'inenv]|[from !name 'inenv ^«at ..»]) 
| (otherwise; asnsfalse]) ) 
[asnztrue] 
"m" expn 10 !indata ^tdata ^exptr ^expty 
newvariable !true !name !tdata fexpty 'toknno ^outdata ^thev ^ovar ^vartype 
([ovar=<>; outree=<as exptr expty thev >] 
|[otherwise; outree=<as exptr expty ovar >]) 
| [Erom !name 'inenv ^fun:«fn inh der»; //"invalid action call"//] 
sends !inh lindata !«» ^sarg ^sdata 
recvs !der !sdata !«» !toknno ^rarg ^outdata 
[outrees«fn sarg rarg >%name] 
[otherwise; from !name !inenv “fun; //"invalid assertion"//] 
([fun:«at ..>) | [fun:<vr ..>]|[fun:<gl ..>|fun:<sa ..»]) 
(":" recogtree !0 !1 !fun 'indata !toknno “outdata “btree 
|boolex 'name !indata ^outdata ^btree) 
foutree=<mt btree >] ) 





~ 


-> STR^strq {output text) 
[outdata-indata; outree=<ot »$strg] 

-> boolex {0 '!indata ^outdata “btree (any assertion] 
(outree=<mt btree >] 

-> "//" [outdatarindata; etrees«»] {error action for failure) 


(erract !outdata !toknno ^outdata8 ^btree 
[etree@=<ca etree btree >))$";" 
"//" [outreescer etree >]; 


erract !indata:table !toknno:int ^outdata:table “outree: tree 


-» STR^strg (output text) 
[outdata-indata; outree=<ot >%strg] 
-» ID^name (predeclared function call or assigns only) 


unpackatts !indata ^inenv ^indef ^redef “tok “tran “hist 
( ("@" [notinset !name 'redef; inset !name !indef; tenvzinenv] 
[//"invalid iterator reference"//] 
([from !name !tenv ^thev:«at ..>]| [from tname !tenv “thev:<vr ..») 
| [from !name !tenv “thev:<sa ..>]) 
[ndef=indef; addset !name 'redef ^nred] 
|([nothere !name !inenv] 
([toknnos0-1; into fname 'inenv !thev:<vr <>>tname ^tenv] 
|[otherwise; into !name !inenv !thev:<sa toknno <>>%name ^tenv]) 
| [tenv=inenv; from fname 'tenv ^thev:«at ..»]) 
[//"name already defined"//] 
[notinset !name !indef; addset !name !indef “ndef; nred-redef]) 
packattributes !tenv !ndef !nred !tok !tran !hist ^edsta 
"z=" expn !0 !edata ^outdata ^exptr ^expty 
[outzee=<as exptr expty thev >] 
({fzom !name !inenv “iden] ([iden:«vr <>>] | [iden:<sa xtk <>>]) 
iden: redecorate !name !expty)? {I hope this is the same one!) 
| [//"invalid action call"//; from !name !inenv “fun:<fn inh der>] 
sends !inh findata !<> ^sarg ^sdata 
recvs !der !sdata !<> !toknno ^rarg “outdata 
[outree-«fn sarg rarg »$name]): 


recogtree !path:int !depth:int !root:tree findata:table 'toknno:int 
^outdata:table ^exptree:tree {*** limit depth to 32 bits ***) 
-> ".." lookup 12 !indata ^exptype {don't care; return true) 
[outdata-indata; exptrees«cn exptype »5*1] 
-» ID ^idn lookup !3 'indata ^tipe 
newvariable !true !idn !indata !tipe !toknno “tdata ^thevar ^wasdef ^vartype 
[inttree !path ^pathtree; inttree '0 “compare; wasdef=<>] 
(":" recogtree !path !depth !root !tdata !toknno “outdata “comp 
[exptree-«an «rt root pathtree compare thevar > comp >] 
I [exptree=<rt root pathtree compare thevar >; outdatastdata]) 
-> "<>" {empty tree) i 
[inttree !path+9*depth ^pathtree; inttree !-1 ^compare] {9 sb 10??) 
[outdata-indata; exptree=<rt root pathtree compare <>>] 
-> "€" ID ^idn (might could take variable node name? maybe later) 
[//"invalid node name"//] 
lookup 'idn !indata ^«co ..> 
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[inttree Ipath+9*depth ^pathtree; inttree lidn ^compare] {9 sb 1077} 
(subtr=<rt root pathtree compare <>>; edatasindata; index=1] 

(recogtree !pathtindex*depth !depth*10 !root !edata !toknno “edata@ “etree 
[subtr@=<an subtr etree >; index@=index+1])* ">" 

("%" ID ^idn lookup !3 !indata ^ttipe 

newvariable !false !idn !edata !ttipe !toknno “edata@ ^thevar ^wasdef ^vartype 
[inttree !path*8*depth ^decorpath; wasdef=<>] 
(subtr@=<an subtr «rt root decorpath compare thevar >>])? 
[exptree-subtr; outdatazedata] ; 


boolex !iname:int findata:table ^outdata:table ^exptree:tree 
-» "otherwise" 
[//"syntax error"//; inames0; lookup !2 !indata ^exptype] 
[outdatazindata; exptree=<cn exptype >%1] 
-> expn !iname tindata ^outdata ^exptree “exptype 
lookup !'2 'outdata “exptype; 


expn !iname:int !indata:table ^outdata:table ^exptree:tree ^exptype:tree 
-> boolterm !iname !indata ^outdata ^exptree ^xtype 
((*"" boolterm 10 !outdata ^outdata8 ^btree ^otype {or} 
Checktype !2 !otype !indata lookup !2 'indata “exptype 
[exptree@=<or exptree btree >])+ 
| Lexptype=xtype)) ; 


boolterm !iname:int !indata:table ^outdata:table ^exptree:tree “exptype:tree 
-> boolfact !iname !indata ^outdata “exptree ^xtype 
(("&" boolfact !0 !outdata “outdata@ ^btree ^atype {and} 
checktype !2 !atype !indata lookup !2 !indata ^exptype 
[exptree@@<an exptree btree >])+ 
| [axptype=xtype) ) ; 


boolfact !iname:int !indata:table ^outdata:table ^exptree:tree “exptype:tree 
-> "~" [inamez0] boolfact {0 !indata ^outdata ^btree ^exptype {not} 
checktype !2 !exptype !outdata 
{exptree=<no btree >] 
-> sexpn !iname tindata “edata “etree ^etype 
("=" sexpn '0 !edata ^outdata ^btree “etype 
lookup !2 foutdata ^exptype 
[exptree=<eq etree btree >] 
|"«" sexpn !0 !edata “outdata “btree ^etype 
lookup !2 !outdata ^exptype 
[exptree=<ls etree btree >] 
[">" sexpn 10 tedata ^outdata “btree ^etype 
lookup 12 'outdata ^exptype 
[exptrees«gr etree btree >] 
|"#" sexpn !0 !edata ^outdata “btree ^etype 
lookup !2 !outdata ^exptype 
{exptree=<ne etree btree >] 
| [exptreezetree; exptype-etype; outdatacedata]); 


sexpn !iname:int !indata:table “outdata:table “exptree:tree ^exptype:tree 
-> ( {iname=0] "+" term !0 !indata ^outdata ^exptree “extype 

Checktype !1 !extype foutdata lookup !1 'indata “xtype 

| [{iname=0] "-" term 10 !indata “outdata “etree “extype 
checktype !1 !exptype 'outdata lookup !1 !indata ^xtype 
[exptrees«ng etree >] 

| term !iname !indata ^outdata ^exptree ^xtype) 

( ("+" term !0 !outdata ^outdatad “etree ^pltype 
checktype !1 !pltype !outdata lockup !1 !indata ^exptype 
{exptree@=<ad exptree etree >] 
|i"-" term 10 !outdata “outdata@ “etree ^mntype 
checktype !1 !mntype !outdata lookup !1 !indata “exptype 
[exptree@=<su exptree etree 2])* 

| [exptypesxtypel): 


term !iname:int !indata:table ^outdata:table ^exptree:tree ^exptype:tree 
-> fact !iname !indata ^outdata ^exptree “extype 
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(("*" fact !0 loutdata “outdata@ “etree ^xtype 
checktype !1 !xtype foutdata lookup !1 !indata “exptype 
[exptree8z«mp exptree etree >) 

|"/" fact !0 foutdata “outdata@ “etree ^xtype 
checktype !1 !xtype !outdata lookup !1 !indata “axptype 
{exptree@=<dv exptree etree >] 

I"\" fact !0 !outdata “outdata@ ‘etree “xtype {mod} 
checktype !1 !xtype !outdata lookup !1 !indata “exptype 
lexptree@=<md exptree etree >])+ 

| (exptypesextype]) ; 





fact finame:int !indata:table ^outdata:table ^exptree:tree ^exptype:tree 
-> "i" [//"syntax error"//; inameg0) (named tree) 
fact !0 !indata ^«no env defd redef tok tran >thist “etree “exptype 
[//"tree name already defined"//] 
[notinset !iname !defd; addset !iname !defd “outdef) 
([nothere !iname ‘env; into !iname !env !thev:«vr exptype »$iname ^outenv] 
| [othezwise; outenv=env) 
[//"invalid node name"//; from !iname !env “thev:<at lnk vrv exptype »]) 
[//"invalid named tree expression"//) 
[from 13 !outenv ^exptype; from !iname !outenv ^ref) 
[outdata=<no outenv outdef redef tok tran »$hist] 
[exptree=<ca «as etree exptype thev > ref >] 
-> [iname#0; outdatazindata] 
unpackatts !indata “env ^defd ^redef “tok “tran “hist 
[from !iname !indata ^exptree] 
{//"undefined identifier"//; inset 'iname !defd) 
[//^invalid identifier in expression"//} 
(lexptree:<at lnk vrv exptype »]|[exptree:«vr exptype>] 
|[exptree:«gl exptype»]|[exptree:«sa xtk exptype»]) 
-> "<>" [//"syntax error"//; inames0] (empty tree) 
[outdatarindata; lookup !3 !indata “exptype; exptree=<bt <> <>>] 
-> "<" [//"syntax error"//; iname=0) lookup !3 !indata “exptype 
[//"invalid node name"//] 
ID ^idn lookup !idn !indata ^«co ..> 
[subtreess«bt <> <>>; edatamindata; indexsl; decor=<bt <> <>>] 
(fact !0 !edata “edataé “etree ^xxxtype (*** not LL(1) ***) 
{*** also, the xxxtype needs repair so it compares it to exptype ***) 
[subtrees@=<ca subtrees etree >tindex; index@zindex+1})* ">" 
("&" sexpn !0 !edata ^edataG “dtree ^etype 
[decor@=<nn dtree etype exptype »])? 
fexptree=<bt subtrees decor >%idn; outdataxzedata] 
-» "false" 
[//"syntax error"//; iname=0; lookup !2 !indata ^exptype] 
foutdata-indata; exptree=<cn exptype >$%0] 
-> "true" 
[//"syntax error"//; iname-0; lookup !2 !indata ^exptype] 
foutdata=indata; exptree=<cn exptype >%1] 
-» "empty" 
[//"syntax error"//; inamez0; lookup !4 !indata “exptype) 
[outdata-indata; exptree=<cn exptype >%0] 
-> "vacant" 
[//"syntax error"//; inamex0; lookup !5 !indata ^exptype] 
[outdatarindata; exptree=<cn exptype »$0] 
-» NUM ^value 
[//"syntax error"//; iname=0; lookup !1 !indata “exptype) 
[outdatazindata; exptree=<cn exptype »*value] 
-> ID “name 
[//"syntax error"//; inamec0) 
{indata:<no env defd redef tok tran >thist] 
("@" [//"invalid use of iterator"//; inset !name !redef] 
| [//'"invalid use of iterator"//; notinset 'name 'redef]) 
fact !name 'indata ^outdata ^exptree ^exptype 
-> "(" [inamezO0] expn !0 findata ^outdata ^exptree ^exptype ")"; 


newvariable !chktyp:bool !name:int !indata:table !tipe:tree !toknno:int 
^outdata:table ^thevar:tree ^oldvar:tree ^vartype:tree 
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-> [name<0] 
unpackatts 'indata ^inenv ^indef “redef ^tok ^tran ^hist 
packattributes 'inenv 'indef 'redef !tok !tran !hist*l ^outdata 
{thevar=<tv tipe »*idn; oldvar=<> vartype=tipe] 
-> [name>0] 
unpackatts !indata ^inenv ^indef ^redef ^tok ^tran “hist 
cre" {** what about call from assignment? **} 
[//'invalid iterator reference"//; inset !name !indef] 
([from !name 'inenv “avar:<at lnk xvrv exty>] 
|I [from !name !inenv ^avar:«vr exty>] 
|[from !name !inenv “avar:<sa xtk exty>]) 
([chktypstrue; tipe#<>; exty#<>; 
//"attribute type mismatch"//; extystipe])? 
( [inset 'name !redef; oldvarsavar] 
newvariable !chktyp !0-1 !indata !exty 'toknno “outdata ^thevar ^xvar ^vartype 
| [otherwise: addset 'name !redef ^nred] 
packattributes !inenv !indef !nred !tok !tran !hist ^outdata 
[thevarzavar; oldvar=<>; vartype-tipe]l) 
1( [inset !name lindef] 
([from !name 'inenv ^oldvar:«at Ink xvrv exty>] 
| [from 'name '!inenv ^oldvar:«vr exty>] 
I [from tname 'inenv “oldvar:<sa xtk exty»]) 
([chktypstrue; tipe#<>; exty#<>; 
//"attribute type mismatch"//; exty=tipe])? 
newvariable !chktyp !0-1 !indata !exty !toknno ^outdata ^thevar “xvar ^vartype 
| fotherwise; addset !name 'indef ^ndef; oldvar=<>] 
([nothere !name !inenv; vartypeztipe] 
([toknno=0-1; into !name 'inenv !thevar:«vr tipe>tname ^tenv] 
| otherwise; into !name !inenv !thevar:<sa toknno tipe>%tname ^tenv]) 
[exty=tipe] packattributes !tenv 'ndef 'redef !tok !tran ‘hist ^outdata 
|fotherwise; tenv=inenv; from !name !tenv “thevar:<at Ink vrv vartype»] 
packattributes !tenv !ndef !redef !tok !tran ‘hist ^outdata 
([chktypstrue; tipe#<>; //"attribute type mismatch"//; vartypestipe])?))) 
-> [otherwise] 
ID^idn 
newvariable !chktyp !idn findata !tipe !toknno ^outdata ^thevar ^oldvar ^vartype: 


lookup !name:int 'data:table “value:tree 
-> [data:«no env defd redef tok tran >thist; from !name !env ^value]; 


checktype !mustbe:int !typ:tree !data:table 
-> [//"wrong type"//] lookup !mustbe !data “typ; 


newtran !intran:tree !fromst:int !tost:int !onch: set 
'actn:tree !tokn:int ^outtran:tree 
-> [inttree !fromst ^frtree; inttree !tost ^totree; settree 'onch ^ontree] 
{outtran=<tr intran frtree totree ontree actn»*tokn]; 


datamerge 'ldata:table !rdata:table “outdata:table 
-> unpackatts !ldata ^inenv ^indef “redef “tok “tran “hist 
unpackatts !rdata “xenv ^xdef “xred ^xtok “xtran ^xhist 
packattributes !inenv !indef !ored !xtok !xtran !xhist ^outdata; 


uniqueset 'oldlist:tree !theset:set “setno:int ^newlist:tree 
(find or create a set item in the list, -theset, return index) 
-> [alist=oldlist; newlistsoldlist; setno=0; settree !theset ^asett] 
([asetti«»] 
([alist:«no link tset »$ixt; treeset 'tset ^aset] 
{alist@=link; difference !theset !aset ^dif1] 
[difference 'aset !theset ^dif2] 
([diflzsdif2; treeint !ixt ^ixn; setno@=ixn; alist@=<>])? )* 
([setnozx0] 
([oldlist:<no ..>%lxt; treeint !lxt ^lxn]|[otherwise; lxn-0]) 
[setnoGzixn*l; newlist@=<no oldlist asett >%lxn+1])? )?; 
nothertranxx fatran:tree !frosty:int !tosty:int !aset:set 'actor:int ^trans:tree 
-> [inttree !frosty ^frtree; inttree !tosty ^totree] 
[settree !aset ^seton; inttree !actor ^acton] 
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[transe<tr atran frtree totree seton acton >]; 


scannerform !thelist:tree !defalts:set !inchs:tree . 
^chrsets:tree ^outacts:tree ^actno:int ^matchtoks:tree 
(thelist is a list of tk&tr nodes built in scanner & newtran) 
(defalts is the set of all chars, diminished by any particular } 
{ chars along the way, to become "anychar" in strings & comments} 
{inchs accumulates disjoint character subsets, which becomes } 
{ chrsets on the way out, sets of which tag revised transitions) 
{outacts is a list of unique action sequences, one each per tran) 
{matchtoks is an isolated list of tk nodes, from which to build } 
( the matchtok procedures) (trans is a cleaned-up list of tr ) 
( transitions, including converts from tk "on char 256") 

-> [thelist:<tr link frtree totree ontree acts >; elt=0; neltsz0] 
[treeset !ontree ^onset; unset=onset; treeset !«» ^emty] 
{(onset#enty] 

([elt«256; anelt=elt; elt@=anelt+1} 

([inset !anelt fonset; nelts@=nelts+1) 
((notinset fanelt+1 !onset; e1t8-260])? )? )* )? 

([nelts«64; difference !defalts !onset ^redefs) 

| [otherwise; redefssdefalts]) 

[alisteinchs; nxlist=inchs] 

([onset#emty; alist:<no slink tset >tixt; treeset !tset ^aset] 
[difference 'onset !aset “difl; difference !aset !onset “dif2] 
[intersect !onset !aset ^dif0; onsetüsdifl; nilist=slink] 
([dif2#temtyadif2#aset; nlist@=alist) alist:deleteitem 
uniqueset !nxlist !dif0 ^setnO ^xlist 
uniqueset !xlist !dif2 ^setn2 ^nxliste )? 

[alistéznlist])* 

uniqueset Inxlist ‘onset ^setnl ^inchex 

scannerform !link !redefs !inchex ^chrsets ^inacts ^nactn ^matchtoks 

[csets-chrsets] 

([actss«»; actnosnactn; outactsseinacts; actor=0] 

[[otherwise; actnosnactn4l; actorzactno) 

[outacts=<no inacts «no <> acts »$actno »*actno]) 
([neits«64; bsetzemty])[otherwise; addset !0 'emty ^bset]) 
([csets:«no clink csett >%cnot; treeint !cnot ^cno] 

[treeset !csett ^oeet; csetsé=clink] 

[intersect !unset !cset ^qset] 

([qsetf#exty; addset !cno !bset ^nset; bsetéznset])? )* 

[treeint !frtree “frosty; treeint !totree ^tosty) 

nothertran !frosty !tosty !bset ‘actor 


-> [thelist:«tk link frtree nmtree >tacts; treeset !«» ^emty) 
scannerform !link !defalts 'inchs ^chrsets ^inacts “nactn ^machs 
(([nmtree:«no ..>; acts:<tk ders »*tokno] 

[matchtoks-«tk machs frtree nmtree >tacts) 
| [nmtree:«st»*tokno; derse#<>; matchtokssmachs]) 
[addset !3 !emty ^cset; actnoznactn*1] 
[outactss«no inacts «no <> «tr ders >%tokno »*actno >%actno) 
[treeint !frtree “frosty; treeint !tokno ^tokn] 
nothertran !frosty !0 !cset 'actno 
| [otherwise; matchtoks=machs; actnosnactn; outacts=inacts]) 


-> [thelist:«nt link ontree >] 

scannerform !link !defalts !inchs ^chrsets “outacts ^actno ^matchtoks 
-» [theiist:«nc link ontree »] 

scannerform !link !defalts !inchs ^chrsets ^outacts ^actno ^matchtoks 
-> [thelistz«»; outacts=<>; actno=0; matchtoks=<>] 

[treeset !«» ^emty; addset !0 !emty ^rets; ones=inchs] 

[addset !32 !emty “spas; settree !rets ^rett] 

[addset !256 !emty ^mgss; settree !mgss ^mgst] 

[settree !spas “spat; settree 'defalts ^deset] 

[Ccsets-«no «no «no «no <> deset »$0 rett >$1 spat >%2 mgst >%3] 

({ones:<no olink osett >; ones@molink; treeset fosett “eset ] 

uniqueset !csets '!oset “nsetx “csets@ )* 

(chrsets=csets] ; 
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findcycle !trans:int !headst:int !here:int !looky:set 
(if you find an empty to headst, convert all statenos of trans } 
{ in looky to headst; if from=to then delete; err if acts#<>} 
-> [flist=trans; addset there !looky “looking; treeset !«» ^mtset] 
(getatran !flist ^frono ^tono ^chrs “acts “flist@ 
([£rono-chere&chrszmtset] (flist,frono,tono, looking) 
([tonosheadst; alistz-1] 
(getatran !alist ^afro ^ato ^achrs ^acta ^alink 
[rev=false] {##alist, afro, ato, achrs) 
([inset tafro !looking; afro@=headst; rev@=true] )? 
([inset 'ato !looking; ato@=headst; revé=true])? 
([atozafro&achrssmtset] fixatran !alist !-1 !-1 'mtset !-1 
[//"Empty cycle action"//; acta=<>] 
|l[rev-true] fixatran !alist !afro !ato 'achrs ‘acta ) 
[alist@=alink})* 
{[notinset !tono ! looking] 
findcycle !-1 !headst !tono !looking ))? )* ; 


matchlist !atree:tree !btree:tree (fails if different) 
-> [atree-btree] 
->  [atree:«no alnk acode »$adec; treeint !adec ^anum] 
[btree:«no blnk bcode >%bdec; treeint !bdec ^bnum] 
[anumsbnum] matchlist !alnk !blnk; 


cataction !oldact:tree !actl:int fact2:int ^act3:int ^newact:tree 
{find or create action list actl;act2 (no dupes), return id# tree) 
-> [alist=oldact; blist-oldact; newact=oldact; subl=<>; sub2-«»] 
[got-false; hino-0] 
([actlz0; act3zact2] 
[fact2-0; act3zactl] 
| ([alist:<no alnk aseq >%axt; treeint 'axt ^axn] 
([actlsaxn; subl@=aseq])? ([act2zaxn; sub28-aseq])? 
([hino<axn; hino@zaxn])? [alist@=alnk])* 
subl:catlist !sub2 “sub3 
([blist:<no blnk bseq >tbxt; blistü-blnk; treeint !bxt ^bxtn] 
(matchlist !sub3 !bseq [act3=bxtn; blist@=<>; got@=true])? )* 
([got2false; act3-hino*1] 
[newact@=<no oldact sub3 »$act3])? ); 


buildscanner !indata:table ^outdata:table ^highstate:int ^hicharset:int 
-> unpackatts !indata ^envt ^indef ^inred ^intok ^intran ^inhist 
["CONST MuchTooBig=262143; TableHighz32767;"] 
["TYPE BigRange-[0..MuchTooBig];TableRange-[0..TableHigh];"] 
("StateTableAry=ARRAY BigRange OF TableRange;"] 
["StateTable-POINTER TO StateTableAry;"] 
("VAR TokenPreview, CurrentState, ncharsets: INTEGER; "] 
("scannextch: CHAR; StateTablePtr:StateTable;"] 
["chartrans: ARRAY CHAR OF INTEGER; "] 
[treetab !envt “env; treeset !<> ^mtset; allset=mtset; tch=1] 
([tch«256; neh=tch; tch@=tcht1] 
([nch#32é (nch<8 nch»13); addset !nch !allset “allset@])? )* 
scannerform !intran !allset !<> 
^trans ^chrsets ^actsets ^actnx ^matchtoks 
(8) [atranstrans; change=true] (actsets...) 
actsets:findvars fenv !mtset ^xset 
("errno : INTEGER; "] 
["PROCEDURE NewStateTable(nitems:BigRange);"] (generic) 
("VAR ix:BigRange; BEGIN NEW(StateTablePtr);"] 
("FOR ix:=0 TO MuchTooBig DO StateTablePtr^[ix]:»0 END END;"] 
["PROCEDURE doerr; VAR ok: BOOLEAN; "] 
["BEGIN ok:=TRUE; CASE errno OF 0:1") 
actsets:finderrs ‘env !1 ^lasterr 
["END; IF errno»0 THEN abortit ELSE errno:=0; END; (*doerr*)"] 
(remove empty cycles} 
(getatran !atran ^cycO ^cycl ^chrsl ^actsi ^linkl 
([chrslzmtset]  findcycle !linki !cycO !cycl !mtset )? 


了 26 MRB 





[atranéslink1])* 
(remove empty moves, transfer action to successor moves) 
i~} ([change=true; change@=false; btranztrans) 


(getatran !btran “from3n ^froto “chrs3 ^acts3 ^link3 

([chrs3zmtset; ctran=trans; change@=true; chngzfalse] 
(getatran !ctran ^tofro ^tostán ^chrs4s ^acts4 “ctran@ 
([froto-tofro) 
cataction !actsets !acts3 !acts4 ^acts34 ^actsetsée 

([chng=false} 
fixatran !btran !from3n !tost4én 'chrsás !acts34 
| [otherwise] 
nothertran !from3n !tostén !chrs4s !acts34 ) 
[chng@=true))? )* )? 
[btran@=link3])* )* 
(convert to dfsm (no reduce)) 

{3} [chrsets:«no ..>thinot; treeint !hinot ^hino; nxchs=chrsets] 
[newsetlist ^stsets; newnewset !stsets ^firstset] 
[addnewset !0 !firstset; doing=firstset] 

[more=true; newsetlist “usacts] 
({more=true; more@=false; alln=0] {: doing, alln} 

([alln«hino*l; oldtrzztrans; newnewset !stsets ^alls) 

[newnewset 'usacts ^user] 

(getatran !oldtr ^frstn “dest ^chrs8s “actor “oldtré 
([inset !alln 'chrsBs; newinset !frstn !doing} 
({actor#0; addnewset !actor 'user])? 

[addnewset !dest 'alls])? )* 

[uniquenew 'alls ^destn; uniquenew !user ^actno] 

([destn»firstset; dests-(destn-firstset)/4) 

| otherwise dests=0}) 

{[dests>0° actno>3; "(*"; number! (doing-firstset)/4) 
[","; number!dests; ","; number'alln; ","] 
[number!actno/4; "*)"; ascii!0] 
notherdetran !(doing-firstset)/4 !(destn-firstset)/4 !alln tactno )? 


[allnézalln*1])* 
(n) ([alls»2doing*4' destn>doing; more@=true; doing@=doing+4])? )* 
{transmogrify halt/block transitions) 
(^! [etranz-1] 


(getadetran '!etran “frost ^tost5 *ch5 ^acts5 ^link5 
({ch5=3; ftran--1; gtranz-1; chg=false; nset=mtset) 
(getadetran !ftran ^from6 ^tosey ^ch6 ^acts6 ^ftrané 

([frostefrom6&toseyftost5; addset !ch6 !nset “mset; nset@=mset])? )* 
(getadetran !gtran “froy “tost7?n “ch? “acts? “gtrané@ 
([fxoystost5; notinset !ch7 !nset] 
[newunion !acts5 '!acts7 ^acts57] 
(Ichg=false; chgé=true] 
fixadetran 'etran !frost !tost7n !ch7 !acts57 
|notherdetran !frost !tost7n !ch? !acts57 ))? )* )? 
[etzané-link5])* 
(output dfsm) 
(59) ("PROCEDURE scanstateitem (st, ch, ac,ns: INTEGER) ; "] 

("VAR ix:BigRange;BEGIN ix:=st;ix:=(ix*ncharsets+ch) *2;"} 

["StateTablePtr^[ix]:zac;StateTablePtr^[ix41]:sns END scanstateitem; "] 

["PROCEDURE ScannerFill;VAR ix:CHAR;BEGIN"]| 

{htran=-1) 

(getadetran !htran ^frost8 ^tost8 *ch8 “acts8 “htran 
([tost8»0'acts8»3; "scanstateitem(("; number! frost8; "),"] 
[number!ch8; ","; number!acts8/4; ","; number!tost8; ");"] 
[ascii!0])? )* 

(output rest of scanner code) 
{"} ["FOR ix:zCHR(0)TO CHR(255)DO chartrans[ix]:z0 END; "] 

["FOR ix:-CHR(8)TO CHR(12)DO chartrans[ix]:=4 END;"] ( :x6; } 

["chartrans[CHR(13)]:22;"] 

([nxchs:«no nxlnk achsett >%setnt; treeint !setnt ^setno] 
(nxchs@=nxlnk; ixcz0; treeset 'achsett ^achset] 

([ixc«256] ([setno»0; inset 'ixc 'achset; "chartrans [CHR("] 

[number!ixc; ")]:z"; number!setno*2; ";"; ascii!0])? 
(ixc@=ixct1])* )* 
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["END ScannerFill;PROCEDURE Getoken; VAR ix, errno: INTEGER; ok:BOOLEAN;"] 
["BEGIN ok:=TRUE; errno:=0;IF Debugging THEN writeC('"; ascii!34; "')END;"] 
("REPEAT NexToken:zTokenPreview; TokenPreview: z0;"] 
["IF LastCharacter»CHR(0)THEN writeC(LastCharacter)"] 
["ELSIF NOT Debugging THEN writeSln END; LastCharacter:=scannextch; "] 
["IF EOF (source) THEN scannextch:=CHR(255) "] 
("ELSIF EOLN (source) THEN READIN (source) ;") 
["scannextch:=CHR(0)END ELSE READ (source, scannextch) END; "] 
("ix:=CurrentState*"; number! (hino*242)] 
["*chartrans [scannextch];"] 
["CASE StateTablePtr^[ix]OF"; ascii!0] 
(newnewset 'usacts “usual; using-usual-4] 
([using»usacts; number!using/4; ": "; gots-mtset] 
{:} [aclistzactsets; hitok=0; toktr=<>] 
([aclist:«no aclnk actup »*1istr; treeint !listr ^lino] 
([newinset 'lino !usacts] 
([actup:«no zlnk coder >titmt; treeint !itmt ^item] 
([coderz:€«tr ..»*tkno; treeint !tkno ^tknn] 
([tknn>hitok; hitok@=tknn; toktr@=coder])? 
|[notinset 'item !gots] coder:flatten ‘env 
["|"; addset fitem !gots “git; gots@=git])? 
[actupüszlnk])* )?  [aclistézaclnk])* 
([hitok»0; ";"] toktr:flatten 'env )? 
["END;"; ascii!0; using8üsusing-4])* 
["0:END; CurrentState:-StateTablePtr^[ix*1];"] 
["IF CurrentState=0 THEN TokenPreview:--1 END"; ascii!0] 
["UNTIL NexToken<>0;IF Debugging THEN IF NexToken«O "] 
["THEN writeS('"; ascii!34; " ?? ')ELSE writeC('"] 
(ascii!34; "')END END END Getoken;"; ascii!0] 
("PROCEDURE InitializeScanner;BEGIN "] 
["ncharsets:s"; number!hino*l; ";TokenPreview:z0;"] 
["scannextch:zCHR (0) ; LastCharacter: =CHR (0); "] 
["CurrentState:z0;NewStateTable("] 
(number! (doing*1)*(hino*1)*2; ");ScannerFill;"] 
("NEW (StringTable);StringTable^[0]:-CHR(0):"] 
["EndStrings:-1;Getoken END InitializeScanner;"; ascii!0] 
("PROCEDURE MatchToken (tkno: INTEGER) : BOOLEAN; "] 
["BEGIN IF tknozNextoken THEN Getoken;"] 
("RETURN TRUE ELSE RETURN FALSE END END MatchToken;"; ascii!0] 
([matchtoks:«tk klnk ontree «no >%tknam >tentry] {/ders} 
[entry:«tk ders »&tokno] 
[treeint !tokno ^tokn; treeint !tknam ^toknam] 





["PROCEDURE MatchTok"; number!tokn] 
([ders#<>; "("] ders:paramlist !true !false ^osemi [7?"] 
[": BOOLEAN; "] 
["BEGIN IF NexToken="; number!tokn; " THEN "J 
({ders:<at dink vrv vty >tnamt; derséedink) 
{"at"; treeint !namt “name; spell !name; "i:-5a"] 
[number!tokn; spell!name; ";"; ascii!0])* 
["IF Debugging THEN writeS('we"; spell!toknam; "');"] 
ders:showdeprams ["writeSln END;"; ascii!0] 
["Getoken; RETURN TRUE ELSE RETURN FALSE END MatchTok"; number!tokn; ":"] 
[ascii!0; matchtoks@=klnk])* 
[hicharset=hino; highstate=doing] ; 


buildparser !indata:table ^outdata:table 
-> [outdatasindata] indata:checkntcalls ‘inenv: 


startoutput !name:int 
-> ("MODULE "; spell !name} 
["; FROM InOut IMPORT ReadChar,ReadLn,WriteStr,WriteLn;"]; 


finishoutput !goalname:int !name:int 
-> ["BEGIN InitializeScanner; IF nt"; spell !goalname] 
[" THEN WriteStr('Success')ELSE WriteStr('Failed')END END "] 
[spell !name; "."]; 


328 MRB 
eee 


globalname !name:int !itstype:tree 
~> ["v"; spell !name; ":"] itstype:showtype [";"]; 


dolibrary !env:table 
-> ; 
{output the predefined routines} 


transformer 


redecorate !decor:int !subtree:tree 


-> <vr . .> 

=> <vr subtree >tdecor 
-> «tk ..> 

=> «tk subtree »*decor 
-> <nt ..» 

=> «nt subtree >%tdecor 
-> <tv ..> 


=> <tv subtree »$decor 

~> <sa toknno xtyp> 

=> <sa toknno subtree»sdecor 

-> <tr link fromst tost chrs acts > 
[inttree !decor “atree) 

=> <tr link atree subtree chrs acts >; 


retype !subtree:tree 
-> <vr <>>%decor 
=> <vr subtree >%decor 
-> «at next vry <>>%decor 
=> «at next vrv subtree >%dacor; 


isdefined !defset:set 
-> «at next vrv tipe >tidn 
next:isdefined !defset 
[//"undefined attribute "; spell !idn //; inset !idn !defset] 
-> «no >; 
checkntcalls !fenv:table 
-» «tr link fst tst chs act »|«tk link fst chs » 
link:checkntcalls tenv 


-> «nc link «nt snd rcv trn >tname > 

link:checkntcalls !env 

[//"not a nonterminal: "; spell !name //] 

[from !name !env ^«nt «no inh der >%tgf rightp >] 
([trn-«»; //spell !name; " is not a parser nonterminal"//; tgf=0] 
i[trn&«»; //spell !name; " is not a transformer nonterminal"//; tgfz1]) 
snd:actualformal !inh !name 
rev:actualformal !der !name 


-> <nt link rpt >%nama {do nonterminals as functions} 
[from !name !env ^«nt «no inh der »$tgf rightp >] 
makeforward !name !env !inh !der !tgf 
link:checkntcalls ‘env 
rpt:doflatten !name fenv !inh !der !tgf 
-> <> ; 


makeforward !name:int !env:table !inh:tree !der:tree !tgf:int 
-> ["PROCEDURE nt"; spell !name] 

([inh:<>; der:<>; tgf=0] 

| [inh:<>; der:<>; tgf=1; "(thetree:tree)"] 

{ (otherwise; "("] 
inh:paramlist !false !faise “isemi 
der:paramlist !true 'isemi ^dsemi 
([tgf=1; ";thetree:tree)"]|[tgfz0; ")"])) 
[": BOOLEAN; FORWARD; "1; 


actualformal !formal:tree !name:int 


TAG BEA #9 TAG 329 


-> <> 
[//"too few actual attributes, calling "; spell !name //; formal:<>] 
-> «at link exptree:«vr expty>%idn <>> 
[formal:«at nextf vrv tipe »] 
[//"attribute type mismatch calling "; spell !name //) 
( [expty-«»] exptree:redecorate 'idn !tipe 
| [otherwise; expty=tipe] ) 
link:actualformal 'nextf !name 
=> <at link exptree tipe > 
-> «at link «ca exptree:«tv expty>%tidn mtt» <>> 
[formal:«at nextf vrv tipe »] 
[//"attribute type mismatch calling "; spell !name //] 
( [expty=<>] exptree:redecorate !idn !tipe 
| [otherwise; exptyztipe] ) 
link:actualformal !nextf !name 
=> «at link «ca exptree mtt» tipe > 
-» «at link exptree expty » 
[//"attribute type mismatch calling "; spell !name //] 
[formal:«at nextf vrv tipe >; expty#<>; expty=tipe] 
link:actualformal !nextf !name; 





paramlist !needsvar:bool !insemi:bool ^outsemi:bool 
-» «» [outsemi-insemi] 
-> ident:<at link vrv tipe >tname 
link:paramlist ‘needsvar !insemi ^tsemi 


([tsemistrue; ";"])? 
'([needsvarstrue; "VAR "])? 
(outsemi=true] 


ident:shovar !false !false 'true !true ‘empty “xset; 


showdeprams 
-> ident:<at link vrv tipe >tname 
link:showdeprams 
["Sho"] tipe:showtype ["("] 
ident:shovar !false !false !false !true ‘empty ^xset  [");"] 
-> <> ; 


doflatten !name:int !env:table !inh:tree 'der:tree !tgf:int 
-> «nt «no ..>%kind body > 
["PROCEDURE nt"; spell !name; ";var ok:boolean:t0:tree;"] 
body:findvars ‘env 'empty ^xset 
["errno:INTEGER; PROCEDURE doerr;VAR ok:BOOLEAN;"] 
("BEGIN ok:-2TRUE;CASE errno OF 0:|"] 
body:finderrs !env !1 ^lasterr 
["END; IF errno»0 THEN abortit ELSE errno:=0 END;"] 
["END doerr; BEGIN ok:-TRUE;errno:z0;"] 
( [kind=1; "t0:=thetree;") | [otherwise; "t0:zNIL;"]) 
("IF Debugging THEN writeS('+"; spell fname; "');"] 
( [kind=1; "Shotree(t0);"])? 
inh: showdeprams ["writeSln END; "] 
body: flatten ‘env 
("IF NOT ok THEN doerr END; "] 
("IF Debugging THEN writeS('-"; spell !name; "');"] 
["IF ok THEN "] der : showdeprams 
["ELSE writeS(' ----') END; Shoboolean (ok) ;writeSln END; "] 
["RETURN ok END nt"; spell !name; ";"): 


findvars !env:table !indone:set “outdone: set 

-> <> | «ot > | «tr ..» [outdone=indone] 

-» «al left right > | «ca left right > | «no left right > 
left:findvars !env !indone ^tdone 
right:findvars !env !tdone ^outdone 

-> <st body > | «pl body > | «dl body tokn > | «er body > 
body:findvars !env !indone ^outdone 

-> «tk params > 
params:argvars !env !true !indone “outdone 

-> <nt snd rev tre> | <fn snd rev > 
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snd:argvars !env !false !indone ^tdone 
rcv:argvars ‘env !true !tdone ^outdone 
-> <mt expt > | «xf expt > 
expt :expnvars ‘env 'indone “outdone 
-» «as expt exty thev > 
thev:shovar !true !true !true !false 'indone “tdone 
expt:expnvars !env !tdone ^outdone ; 


expnvars !env:table !indone:set ^outdone:set 

-> <ca stm exp» 
stm:findvars tenv !indone “tdone 
exp:expnvars !env !tdone “outdone 

~> <bt expl exp2 > 
expl:bldvars !env !indone “tdone 
exp2:expnvars !env !tdone “outdone 

-> («or expl exp2 >|<an expl exp2 »|«eq expl exp2 > 


|*ne expl exp2 >|<ls expl exp2 >|<gr expl exp2 »|«ad expl exp2 > 
|<su expl exp2 >|<mp expl exp2 »|«dv expl exp2 »|«md expl exp2 >) 


expl:expnvars !env !indone ^tdone 
exp2:expnvars !env !tdone ^outdone 
-> («no exp »|«ng exp >/<nn exp >) 
exp:expnvars ‘env !indone “outdone 
-> <rt nod pth cmp <>> 
{outdone=indone) 
-> <rt nod pth cmp var» 
var:shovar !true !true !true !false !indone “outdone 
-> (<>i<cn ..»|«vr ..»|«at ..»|4gl ..»|]«tv ..»|«sa ..») 
[outdonezindone] ; 


bldvars !env:table 'indone:set ^outdone:set 
-> <ca stm exp > 
stm:bldvars ‘env !indone “tdone 
exp:expnvars !env !tdone “outdone 
-> exp:<bt ..> 
exp:expnvars !env !indone “outdone 
-> <> ({outdone=indone] ; 


argvars !env:table !uparo:bool findone:set “outdone: set 


-> (exp:<vr ..»|exp:«at vinx <> vty»[|exp:«at vlnx «tk» vty> 


|exp:«gl ..»|exp:«4sa ..>) 
(uparo-true] 

exp:shovar !true !true !true !false !indone “outdone 
-> «at nexta exptr expty > 

nexta:argvars !env !uparo 'indone ^xdone 

( fuparo-true] 

exptr:argvars ‘env !uparo !xdone “outdone 

1 [otherwise] 

exptr:expnvars !env !xdone “outdone ) 
-> «ca exp stm > 

{ [uparostrue] 

exp:shovar !true !true !true !false !indone ^tdone 

stm:findvars !env !tdone ^outdone 

{ [otherwise] 

exp:findvars !env 'indone ^tdone 

stm:expnvars 'env !tdone “outdone ) 
-> <> [outdonesindone] ; 


shovar !usesa:bool !needsem:bool !tytoo:bool 'allvars:bool 'indone:set “outdone: set 


-> <tv vty >tnumb ["tv"; number !numb; outdone=indone] 
( [tytoo=true; ":"] vty: showtype 
( [needsem-true; ";"])?)? 

-> <gl vty >%name 


( [allvarsstrue; "gl"; spell !name; addset 'name !indone ^outdone] 


([tytoostrue; ":"] vty:showtype 

( [needsem-true; ";"1)?)? 

| [otherwise; outdone=indone] ) 
-> «at ink vrv vty>tname 


FU B 
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( [vrv:<tk>%toknno; toknno#-1; usesa-true; 
notinset !name*20+toknno !indone; "sa"; number !toknno; 
spell 'name; addset !name*204toknno !indone “outdone] 





([tytoo=strue; ":"] vty: showtype 
([needsem-true; ";"])?)? 
| [allvars=true] 
["at" spell !name; addset Iname 'indone “*outdone] 
([tytoo=true; ":"] vty:showtype 
({needsem=true; ";"]1)?)? 


| [otherwise; outdone-indonel) 
-> <vr vty >tname 
( [motinset !name !indone; addset ‘name !indone ^outdone] 
("ve"; spell !name] 
([tytoostrue; ":"] vty:showtype 
( [needsem=true; ";"1)?)? 
| [otherwise: outdonexindone]) 
-> «sa toknno vty>tname 
( [notinset !name*20+toknno !indone; 
addset !name*204toknno !indone ^outdone] 
["sa"; number !toknno; spell !name] 
([tytoostrue; ":"] vty:showtype 
([needsem-true; ";"])?)? 
| [otherwise; outdonemsindone]); 


showtype 
-> «ty >%typeno 

((typenozl; "INTEGER"] 
|[typenoz2; "BOOLEAN"] 

| [typeno=3; "tree"] 

| [typeno=4; "tree"] 

| [typeno=5; "table"] 
([typeno>5; "INTEGER"]): 


finderrs !env:table !inerno:int ^outno:int 
-> <> | «tr ..» | <ot > | «tk ..» | «nt ..» | «fn ..» | «mt ..» | «xf ..» | «as ..> 
{outno=inerno] 
-» «al left right > | «ca left right > | «no left right » 
left:finderrs !env !inerno “midno 
right:finderrs !env !midno ^outno 
-> «st body > | «pl body > | «di body tokn > 
body:finderrs !env !inerno ^outno 
-> <er body > 
[number !inerno; ": "] 
body:flatten !env 
["|"; outnominernotl] 
=> «er »*inerno ; 


flatten !env:table 
-> <> {no code) 
-> <ca <> right > 
right: flatten !env 
-> <ca left right > 
left:flatten !env 
["IF ok THEN "] 
right:flatten !env 
["ELSE doerr END;"] 
-> «al left right > 
("push (errno) jerrno:=0; push (Taken) ; Taken: «0; "] 
left:flatten 'env 
["IF NOT ok THEN doerr;ok:zTRUE;errno:z0;") 
("IF Taken»0 THEN SyntaxError END;"] 
["IF Debugging THEN writeS('|')END;"] 
riíight:flatten !env 
["IF NOT ok THEN doerr;IF Taken>0 THEN SyntaxError END;"] 
["END END; Taken:sTakentpop();errno:xpop(;"] 
-> «st body > 
["push (errno) ; push (Taken) :WRILE ok DO "j 
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["errno:z0; Taken:z0;IF Debugging THEN writeS('(')END;"] 
body:flatten !env 

("IF Debugging THEN writeS(')*')END:;"] 

("IF Taken»0 THEN IF ok THEN push (Taken+pop())"] 

("ELSE SyntaxError END END END;"] 

["Taken:zpop () ;exzno: pop () ; ok: zTRUE; ") 


-> «pl body > 


["push(errno);push(Taken);push(0);REPEAT "] 
["Taken:z0;errno:-z0;IF Debugging THEN writeS(' (') END; "] 
dody: flatten !env 
("IF Debugging THEN writeS(')*')END;"] 
["IF Taken»0 THEN IF ok THEN push (pop () *pop () *Taken) ; "] 
["push(1) ELSE SyntaxError ELSIF ok THEN "] 
["push(pop()4*1)END END UNTIL NOT ok; ok: =pop () 20; Taken: «pop () ;errno:=pop () ; "] 


-> «dl body tokx»$tokn 


["push (errno) ;push (Taken) ;push (0) ; REPEAT errno:z0;Taken:-z0; "] 
["IF Debugging THEN writeS('(')END;"] 

body:flatten !env 
["IF Debugging THEN writeS(')$')END; push (Taken+pop) "] 
("UNTIL NOT ok OR NOT matchtoken("; number !tokn; ");"] 
["Taken:-pop;IF NOT ok THEN doerr;"] 
["IF Taken»0 THEN SyntaxError END END;"] 
["Taken:zTaken*pop; errno: =pop; "] 


-> <tk <>>Stokn 


-> 


-> 


-> 


["ok:zmatchtoken("; number !tokn; ");"] 
<tk params:«at ..>>%tokn 
["ok:smatchtok"; number 'tokn; "("] 
params:doargs !env !true !false !«» ^needs ^post 
U»9;"] 
post:flatten !env 
<nt snd rcv tre>tname 
["ok:znt"; spell !name] 
([snd:<>; rev:<>; tre:«»; ";"] 
| (otherwise; "("] 
snd:doargs !env !false !false !«» ^sneed “postx 
rcv:doargs !env !true !sneed !postx ^rneed “post 
([tref«»] 
([zneed=true; ","]|[Irneed-false]) 
tre:shovar !true !false !false !true !empty ^xset)? 
[0;"1) ' 
post:flatten !env 
«fn snd rcv »$name 
["ok:zfn"; spell !name] 
([snd:<>; rcv:«»; ";"] 
|[otherwise; "("] 
snd:doargs !env !false !false !«» ^sneed ^postx 
rcv:doargs !env !true !sneed !postx ^rneed ^post 


UD 


.post:flatten !env 


-> 


-> 


-> 


-> 


-> 


-> 


<mt expt > 
["ok:="] 
expt:flattex !2 !env ^extx [";"] 
«as expt <> thev > 
thev:getvartype “<ty>texty 
thev:shovar !true !false !false !true !empty “xset [":="] 
expt: flattex 'exty 'env “extx [";"] 
«as expt <ty>%texty thev > 
thev:shovar !true 'false !false !true !empty ^xset [":="] 
expt: flattex fexty !env ^extx [";"] 


<ot >Stxtno 
([txtno»0; "writeS('"; spell !txtno; "');"] 
["IF Debugging THEN writeSln;writeS(''"; spell !txtno; "' ')JEND; "] 
|[txtnoxz0; "writeS1ln;"]) 
«xf body > 


["replacetree (thetree, "] 
body: flattex !3 !env ^extx [");"] 
<tr ders »$toknot 
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-> 
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[treeint !toknet “tokno; "TokenPreview:-z"; number!tokno; ";"] 
«er ..»*erno 
["if not ok then doerr;errno:="; number !erno; ";"]: 


getvartype ^vartype:tree 


-> 
-> 
-> 
-> 
-> 


«tv vartype> 
«gi vartype» 
«at lnk vrv vartype> 
«vr vartype» 
<sa toknno vartype>; 


flattex !mustype:int !env:table ^istype:int 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


«rt root pth comp nvar» [from 11 !env ^itype] 

([nvar:«vr vty»)|[nvar:«at vinx vlv vty»] 

| (avar:<gl vty>] | [nvar:<sa toknno vty>] | (otherwise; vty=<>]) 

(litypeevty; "treeparty("}|[otherwise; "treepart("]) 

([rootz«»; "thetree"] 

| [otherwise] root:shovar !true !false !false !true !empty ^xset) 

[","; treeint !pth ^path; number !path; ","; treeint !comp ^con] 

[number ‘con; ","] 

((nvarsc»; "t0"] 

I [otherwise] nvar:shovar !true !false !false !true !empty ^zset) 

[")"; istype=2; //"boolean type expected"//; mustypez2'mustype-O] 
«bt O > 

["NIL"; istypex3; //"tree type expected"//; mustype=3`mustype=0] 
«bt subs decor »*ndn ["build("; number !ndn; ","] 

[istypez3; //"tree type expected"//; mustypez3'mustypes0] 
decor:flattex !3 1egv ^exty 
subs:buildtree !env ^nsubs [ann=nsubs] 
( [nsubs«8; ",NIL"; nsubs@=nsubst+1])* [","; number !nnn; ")"] 
«nn expr:«vr exty» <> <ty>%toty>|<an expr exty:<ty> <ty>%ttoty> 
exty:castype !toty ^itsty 

["("; ístypestoty; //"type mismatch"//; mustypectoty' mustypez0] 
expr:flattex !itsty !env ^extx  [")"] 
«or left right > ["("; //"boolean type expected"//; mustype-2'mustypezO] 
left:flattex !2 !env ^exty [")OR("] 
right:flattex !2 !env ^extz [")"; istype=2] 
<an left right > ["(*; //"boolean type expected"//; mustype-2' mustype=0] 
left:flattex !2 !env ^exty [")AND("] 
right:flattex !2 fenv ^extz [")"; istype=2] . 
«no left > ["NOT("; //"boolean type expected"//; mustype-2' mustype-0] 
left:flattex !2 !env ^exty [")"; istypez2] 
«eq left right > ["("; //"boolean type expected"//; mustype=2° mustype=0] 
left:flattex 10 !env ^exty ["z"] 
right:flattex !0 !env ^exty [')"; istype-2] 
<ne left right > D"("; //"boolean type expected"//; mustype-2' mustypem0) 
left:flattex !0 !env ^exty [")<>("] 
rigbt:flattex !0 !env ^exty {")"; istype=2] 
«1s left right > ["("; //"boolean type expected"//; mustype=2' mustype=0) 
left: flattex !0 !env ^exty [")«("] 
right :flattex !0 ‘env ^exty 

[")"; istypez2; //"invalid magnitude compare not int"//; exty=1] 
<gr left right > ["("; //"boolean type expected"//; mustype=2* mustype=0] 
left:flattex !0 !env ^exty [")>("] 
right:flattex !0 !env ^exty 

[")"; istype=2; //"invalid magnitude compare not int"//; exty=1} 
«ad left right > t"("; //"anteger type expected"//; mustype<2) 
left:flattex !1 'env ^exty [")+("] 
right:flattex !1 !env ^extz [")"; istype=1) 
<su left right > ["("; //"integer type expected"//; mustypec2] 
left:flattex !1 'env ^exty [")-("] 
right:flattex !1 !env “extz [")"; istype=1] 
«mp left right » ["("; //"integer type expected"//; mustype<2] 
left:flattex !1 'env ^exty [")*("] 
right:flattex !1 !env ^extz [")"; istype=1) 
«dv left right » ["("; //"integer type expected"//; mustype<2] 
left:flattex !1 !env ^exty [")DIV("] 
riíght:flattex !1 ‘env ^extz [")"; istype=1} 
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o OOO 
-> <md left right > ["("; //"integer type expected"//; mustype«2] 
left:flattex !1 !env ^exty [")MOD("] 


right:flattex 11 'env ^extz [")"; istype-1] 
-» «ng left » ["-("; //"integer type expected"//; mustype<2] 
left:flattex !1 !env ^exty (")"; istype=1] 


-> thev:<vr «ty»&vty» | thev:<gl <ty>%vty> | thev:<at xx vrv <ty>tvty> | 
thev:<tv <ty>%vty> | thev:<sa toknno <ty>$vty> 
[//"identifier type mismatch"//; mustype=vty mustype=0; istype=vty] 
thev:shovar !true !false ‘false !true !empty ^xset 

-> <co «ty»$tipe »*idn 

[//"identifier type mismatch"//; mustypeztipe' mustype=0] 

[number !idn; istype-tipe] 
-> <CR <ty>%2 >%0 

[//"boolean type expected"//; mustypes2' mustype=0] ["FALSE"; istype=2] 
-> <cn <ty>%2 »$1 

[//"boolean type expected"//; mustype=2 mustype=0] ["TRUE"; istype-2] 
-> «cn <ty>%4 > 

[//"set type expectad"//; mustype=4' mustypesO]["NIL"; istype-4] 
-> <en «ty»$5 > 

[//"symbol table type expected"//; mustype=5`mustype=0] ["NIL"; istype=5] 
-> <en «ty»$1 >tval 

[//"integer type expected"//; mustype<2] [number !val; istype-1] 
-> «Cn «ty»$cty >tval 

[//"ánvalid constant type"//; mustype-cty' mustype=0; cty>5] 

[number !val; istype-cty] : 


doargs !env:table !uparo:bool !insemi:bool !repost:tree 
^outsemi:bool ^post:tree 

-> <> [outsemizinsemi; post=repost] 

-» <at nexta exptr expty:<ty >%tyno > 
nexta:doargs ‘env !uparo !insemi ‘repost ^xsemi ^postx  [outsemi-true] 
( [xsemi-true; ","])? 
( [uparo-true] exptr:splitarg 'postx “post 
| [otherwise; post=postx] exptr:flattex !tyno !env ^xty ); 


splitarg !pre:tree ^post:tree 
-> «ca exptr thep > 
exptr:shovar !true !false !false 'true ‘empty “xset [postz«ca pre thep >] 
-> thev:<vr ..> | thev:<gl ..> | thev:«at ..» | thev:«tv ..> | thev:<sa . .> 
thev:shovar !true !false !false 'true 'empty ^xset [post-pre]; 


buildtree !env:table ^nsubs:int 
-> «bt <> <>> [nsubs=0] 
-> «ca next extr > 
next:buildtree !env ^nmos [","; nsubs=nmos+1] 
extr:flattex !3 !env ^xty ; 


castype 'wanty:int ^typeno:int 
-» «ty >%typeno 
([typeno=1; "int"]l[typeno-2; "bool"]|[typenoz3; "tree"] 
| [typeno=4; "tree"]|[typenos5; "tree"]|[typeno»5; "int"]) 
([wanty=1; "int"]|[wanty-2; "bool"]|[wanty-3; "tree"] 
{[wanty=4; "tree"]|[wanty=5; "tree"]|[wanty»5; "int"]) ; 


deleteitem (delete from list, replace with its link} 
-> <no link aset > 


=> link 
-» <tr link fromst tost chrs acts > 
=> link; 
catlist !tail:tree “result :tree {cats tree to tail} 


-> <> [result=tail] 
-> «no link code >%deco 
link:catlist !tail ^midlist  [result-«no midlist code >%deco] ; 


end TagGrammar. 





附录 C Itty Bitty 栈 机 器 的 指令 集 


Itty Bitty 栈 机 器 是 一 种 虚构 的 栈 计算 机 ?， 它 有 一 个 简单 的 指令 集 ， 并 且 仅 有 一 种 寻 址 模 
式 。 这 使 得 编译 Modula-2 这 类 高 级 语言 时 更 容易 为 [BSM 生成 目标 代码 ， 同 时 也 使 得 一 些 代 
码 优化 问题 更 清晰 。 从 实际 效果 看 ， 该 计算 机 有 三 个 寄存 器 ， 这 些 寄 存 器 都 不 是 直接 可 编程 的 
〈《 即 没有 专门 的 装 入 或 存储 指令 用 于 改变 寄存 器 的 内 容 )。 这 三 个 寄存 器 分 别 是 程序 计数 器 、 栈 
指针 以 及 帧 指针 。 第 四 个 寄存 器 〈Limit) 用 于 保护 用 户 免 受 栈 溢出 的 危害 ,但 它 通 常 是 不 可 改 
变 的 。 在 启动 时 ， 所 有 四 个 寄存 器 均 从 内 存 设置 了 一 个 初始 值 。 

当 程 序 执行 时 ， 程 序 计数 器 (Program Counter， 简 称 PC) 沿 机 器 代码 前 进 。 有 三 条 指令 
可 以 用 其 他 方式 修改 程序 计数 器 的 内 容 ， 从 而 改变 指令 的 执行 序列 。 

栈 指针 (Stack Pointer， 简 称 SP) 总 是 指向 表达 式 和 控制 栈 的 顶部 。 不 同 于 许多 现代 计算 
机 , IBSM 的 栈 朝 着 递增 的 内 存 地 址 沿 正方 向 增长 。 大 多 数 指令 都 会 导致 SP 随 栈 的 增长 或 缩小 
而 分 别 递增 或 递减 。 有 两 条 指令 作为 进入 和 退出 一 个 过 程 的 一 部 分 ,它们 对 SP 的 影响 更 关键 。 

帧 指针 (Frame Pointer， 简 称 FP) 是 两 条 内 存 引用 指令 的 基地 址 。 作 为 进入 和 退出 一 个 过 
程 的 一 部 分 ，FP 也 会 随 之 隐 式 地 被 改变 ， 除 此 之 外 ， 没 有 其 他 方法 可 改变 FP. 

IBSM 的 设计 目标 是 其 操作 方式 与 任意 字 长 的 计算 机 尽量 接近 ， 惟 一 例外 是 对 于 更 长 的 机 
器 字 ， 可 将 多 条 指令 压缩 在 单个 字 中 。 每 一 指令 占 $ 个 位 ， 因 而 可 将 3 条 指令 压缩 在 一 个 16 
位 的 字 中 《第 16 位 还 可 容纳 仅 由 一 个 有 效 位 组 成 的 第 4 条 指令 )， 如 图 C-1 所 示 。 如 果 字 长 为 
32 位 ， 则 编译 程序 可 将 6 条 或 7 条 指令 压缩 到 一 个 字 中 。 在 每 一 个 字 仅 含 一 条 指令 的 情况 下 ， 
IBSM 也 可 运行 良好 ， 如 第 6 章 所 述 。 当 每 一 个 字 压 缩 了 多 条 指令 时 ， 先 执行 该 字 中 最 低 有 效 
的 5 位 ， 然 后 执行 下 一 个 5 位 ， 如 此 类 推 ， 直 至 不 再 有 非 0 的 指令 。 分 支 语句 与 过 程 调用 (以 
及 返回 ) 总 是 导致 程序 从 寻 址 找到 的 字 的 第 一 条 指令 开始 继续 执行 。IBSM 没有 类 似 的 字 节 寻 
HRR: 字 是 原子 的 。 

第 4 条 
指令 第 3 条 指令 第 2 条 指令 第 1 条 指令 
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CJ IBSM 指令 字 (16 位 版 本 ) 


程序 启动 时 ，IBSM 从 内 存 的 (绝对 ) 位 置 0 读 入 一 个 地 址 ， 并 将 它 作为 栈 指针 的 起 始 值 。 
然后 IBSM 从 这 一 初始 栈 的 顶部 弹出 三 个 字 ( 倒 计数 , 因而 这 三 个 字 的 位 置 是 ma - 180 n —2), 
并 将 它们 分 别 设置 为 栈 的 界限 (以 避免 栈 溢出 )、 帧 指针 的 初始 值 以 及 程序 计数 器 的 初始 值 。 
在 代码 清单 6.1 中 ， 它 们 被 设置 为 : 


SP 3 《初始 时 ， 在 弹出 之 前 ) 
Limit 100 
FP 0 


© 作者 工 Pittman 关于 IBSM 的 最 新 描述 可 参见 http://www. ittybittycomputers.com/Courses/Prior/CC/ABSM.htm. — i$% #7} 
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PC 100 
SP 





(弹出 其 余 3 个 字 之 后 ) 


如 果 需 要 运行 更 大 的 程序 〈 例 如 需要 比 100 个 字 更 多 的 栈 增长 )， 则 可 修改 目标 文件 中 的 
第 一 行 ， 用 一 个 更 大 的 数字 系统 地 替换 这 些 为 100 的 值 。 

一 些 指令 代码 被 保留 以 备 多 任务 的 应 用 ， 并 且 它 们 与 编译 程序 设计 原理 没有 关系 。 另 一 些 
指令 代码 被 保留 是 为 了 未 来 的 研究 。 表 C-1 定义 了 剩 下 的 28 个 指令 ， 表 中 的 指令 代码 以 十 进 
制 表示 。 


e 


X C-1 IBSM 指令 集 


代码 NES 
00 Nop 无 操作 (No operation)。 在 一 个 部 分 填充 的 指令 字 中 用 作 填 充 符 


为 假 时 分 支 (ranch if False)。 从 栈 中 弹出 两 个 数字 ， 如 果 第 二 个 数字 为 0， 则 将 第 一 
01 BrFalse | 个 数字 累加 到 程序 计数 器 PC， 并 继续 执行 这 个 字 的 第 一 条 指令 ,否则 执行 指令 序列 中 的 下 一 指 
Fe 这 可 以 是 压缩 在 16 位 指令 字 中 的 第 四 条 指令 

CRE) 

WA] (Call) 一 个 《绝对 ) 地 址 位 于 栈 顶 的 过 程 ， 其 调用 方式 是 交换 栈 顶 与 PC 的 内 容 。 一 
03 Call 个 未 使 用 ENTER 的 过 程 也 可 用 这 一 指令 返回 , 可 是 如 此 一 来 则 必须 由 调用 者 负责 丢弃 栈 顶 元 素 。 
作为 返回 地 址 压 入 栈 中 的 PC 值 总 是 下 一 指令 字 的 地 址 ， 即 便 在 当前 字 中 仍 有 未 用 的 指令 

WA Center) 一 个 过 程 。 弹 出 栈 顶 字 n， 代 之 以 帧 指针 (动态 链 ， 指 向 一 个 在 其 头 部 使 用 了 
04 Enter 它 的 过 程 ) 的 当前 内 容 ， 让 帧 指针 重新 指向 静态 链 假设 位 于 动态 链 之 下 的 第 二 个 字 )， 然 后 调 
整 栈 指针 向 上 移动 上 个 字 〈 以 保留 局 部 变量 的 空间 ) 

B (Exit) 一 个 由 Enter 指令 进入 的 过 程 。 从 栈 顶 弹出 值 mn， 设置 SP 指向 动态 链 (BU FP 
Exit 中 的 值 再 加 2)， 然 后 弹出 动态 链 存 入 FP 中 ， 弹 出 返回 地 址 存 入 PC 中 ， 最 后 再 弹出 并 丢弃 个 
字 《 即 过 程 的 参数 ， 此 时 不 再 需要 ) 


02 


e 
un 


- (保留 ) 

08 Dupe HH (Duplicate) 栈 顶 元 素 ， 其 方法 为 将 栈 顶 字 的 一 个 副本 压 入 栈 中 

09 Swap 交换 (Swap) RIAD, MABE AOA NE A 

10 (保留 ) 

u Moy 将 栈 顶 的 两 个 字 相 乘 (Multiply)， 用 单个 字 的 积 取代 它们 。 如 果 乘 法 结果 大 于 一 个 字 ， 则 
超出 的 高 位 将 丢失 

12 将 栈 项 的 两 个 字 相 加 《AaGa)， 用 它们 的 和 取代 它们 。 如 果 加 法 结果 溢出 ， 则 将 有 错误 的 符号 

13 Xor 将 栈 项 的 两 个 字 执行 逐 位 的 异 或 (exclusive-or)， 用 结果 取代 它们 


将 栈 顶 的 两 个 字 执行 逐 位 的 逻辑 或 (inclusive-or)， 用 结果 取代 它们 

将 栈 顶 的 两 个 字 执行 逐 位 的 逻辑 与 (logical ana)， 用 结果 取代 它们 

比较 栈 项 的 两 个 字 是 否 相等 〈EQUAL)， 如果 相等 则 用 真 O) 取代 它们 ， 否 则 用 假 (0) 取代 
它们 

比较 栈 项 的 两 个 字 是 否 有 小 于 〈Less) HK; 如 果 第 一 个 字 大 于 第 二 个 字 则 用 真 取代 它们 ， 
否则 用 假 取代 它们 

比较 栈 项 的 两 个 字 是 否 有 大 于 (Greater) 关系 ; 如 果 第 一 个 字 小 于 第 二 个 字 则 用 真 取 代 它 
1], FUR BRRE 

o 将 栈 顶 字 的 每 一 位 求 反 
Negate 用 栈 顶 字 的 二 进 制 补 码 负数 (Negative) PARME 


HG 
gei 
H 
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mp 
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H 
wo 
et 


m 
eo 
z Q p ti E o 
H o [e] 
oO n a Q 
w a D 
ct E 
全 
K 


N jN 
Po 


《保留 ) 


NTN [Me 
m Pi | 


Stop ik (Stop) IBSM 的 执行 。 这 条 指令 通常 留 作出 错时 停机 之 用 


Itty Bitty HBB 4442894 4 337 


( 续 ) 
mm 描述 
js 从 栈 项 字 中 减 去 FP。 如 果 栈 顶 字 是 内 存 中 的 一 个 绝对 地 址 ， 这 会 将 它 转换 为 一 个 相对 于 FP 
的 地 址 ， 从 而 装 入 和 存储 指令 可 正确 地 工作 
» 存储 (Store) 一 个 变量 。 弹 出 栈 顶 的 两 个 值 ， 并 将 第 一 个 值 存储 到 由 第 二 个 值 与 FP 之 和 寻 
址 的 内 存 位 置 。 该 指令 为 相对 于 FP 寻 址 的 局 部 变量 提供 了 一 种 简单 的 访问 方式 
27 EA (Load) 一 个 变量 。 弹 出 栈 顶 值 ， 并 用 由 该 值 与 FP 之 和 寻 址 的 内 存 位 置 中 的 内 容 取 代 它 。 
,8 装 入 一 个 常量 (Load Constant)。 将 PC 所 指向 的 字 的 值 压 入 栈 中 ， 并 让 PC 递增 。 注 意 
n 当前 指令 字 中 另外 的 指令 将 继续 执行 ， 但 下 一 指令 字 将 跟随 在 常量 字 之 后 
装 入 短 常量 。 将 当前 指令 字 之 后 5 个 位 的 值 作 为 一 个 字 压 入 栈 中 ， 并 且 不 将 该 部 分 作为 一 条 
29 指令 执行 。 如 果 在 5 个 位 的 常量 之 后 有 另外 的 指令 ， 则 继续 执行 这 些 指令 ， 和 否则 继续 执行 PC 指 
向 的 下 一 个 字 
30 装 入 0 (Zero). 380 UB) 作为 一 个 字 压 入 栈 中 
31 One 装 入 Cone). 41 ORO. 作为 一 个 字 压 入 栈 中 


IBSM 已 有 一 个 解释 程序 ， 采 用 ISO Pascal 语言 的 一 个 适度 可 移植 的 子 集 编写 。 采 用 一 些 
不 太 正 统 的 技巧 可 提高 儿 个 过 程 的 执行 速度 ， 这 些 过 程 已 作 了 标记 。 该 解释 程序 接受 一 个 包含 
IBSM 代码 的 文本 文件 ， 并 装 入 十 进 制 数字 表示 的 信息 。 除 非 显 式 地 改变 了 装 入 地 址 ， 否 则 从 
地 址 0 开始 装 入 虚拟 机 的 内 存 ， 并 连续 地 顺序 装 入 ， 每 一 个 字 表 示 一 个 数字 。 

数字 “-1” 作 为 一 个 转 义 代码 使 用 。 如 果 一 个 值 后 面 跟着 另 一 个 “-1”， 则 该 值 存 入 下 一 
个 字 并 继续 装 入 过 程 。 如 果 下 一 个 值 是 一 个 正 数 且 是 一 个 有 效 地 址 ， 则 从 文件 中 该 值 表示 的 地 
址 开始 继续 装 入 ;如果 下 一 个 值 大 于 最 大 的 合法 地 址 ， 这 表明 文件 已 结束 ， 则 通过 从 地 址 0 HX 
出 SP 并 弹出 剩余 的 寄存 器 开始 执行 程序 。 

如 果 跟 在 转 义 代码 “-1” 后 面 的 是 一 个 负数 ， 但 不 是 “-1”， 则 使 用 该 数字 低 5 位 中 的 4 
位 设置 一 些 支持 追踪 的 标志 ， 然 后 正常 地 开始 执行 。 有 效 的 追踪 支持 位 包括 以 下 标志 ， 


0 (D) (保留 》 

1 (2) 追踪 对 内 存 的 写 操作 〈Sm 指令 ) 
2 (4 追踪 序列 执行 中 的 任何 修改 

3 (8) 仅 追 踪 过 程 的 进入 与 退出 

4 (16) 追踪 每 一 指令 


当 该 负数 的 某 一 位 为 0 时 〈 即 用 到 了 补 码 )， 相 应 的 追踪 支持 位 被 设置 ; 因而 值 -31 开启 了 
所 有 的 追踪 ， 而 -9 则 仅 追 踪 过 程 的 进入 与 退出 。 为 设置 某 一 特定 的 追踪 级 别 ， 应 加 上 选中 的 位 
的 值 ， 并 从 求 和 结果 中 减 去 -1。 

指令 追踪 结果 显示 了 一 条 指令 的 “周期 ”计数 和 当前 指令 的 地 址 ， 接 着 是 SP 和 栈 顶 的 值 ， 
以 及 指令 执行 后 的 FP。 顺 序 改 变 和 内 存 写 操作 的 追踪 将 找 出 所 涉及 的 各 个 地 址 ， 对 于 追踪 写 
操作 的 情况 ， 还 包括 存储 到 那里 的 数据 。 

在 一 个 过 程 入 口 的 开始 处 可 生成 代码 清单 6.3 所 包含 的 十 进 制 代码 , 用 于 构建 一 张 Display 

af 表 。 代 码 清单 C.1 展示 了 该 操作 的 机 器 码 助 记 符 。 


代码 清单 C.1 为 IBSM 栈 构建 一 个 Display 表 的 代码 


28828 Entry: LoadCon #nvars ; 局 部 变量 的 数目 
Enter ; 在 栈 中 分 配 变量 的 空间 


336 RC 


LoadCon #lex ; Display 表 中 单元 的 数目 
44968 Loop: Dupe 

Nibble #11 ; 至 Done 的 偏 移 量 

BrFalse ; 车 无 新 的 单元 要 构建 则 退出 
13288 Dupe 

One ; 剩余 副本 的 计数 器 递增 ， 

Add 从 而 最 后 一 个 项 目 立 即 退出 


30 Zero 
21481 UpLevel: Swap 为 该 项 目 寻找 静态 链 
One 计数 器 递减 ， 为 0 则 跳 转 到 GotIt 
Negate 
268 Add 
Dupe 
1149 Here: Nibble #3 
BrFalse 
26473 Swap 
Load 
Global 
7102 Zero 
Nibble #6 
52 Negate 
BrFalse 
32044 GotIt: Add 
Swap 
One 
31124 Negate 
Add 
Zero 
53661 Nibble #12 
Negate 
BrFalse 





`e 


`e 


`e 


装 入 下 一 静态 链 CD 


EM 


无 条 件 分 支 跳 回 UpLevel 


~ 


通过 累加 到 栈 顶 来 处 置 0 
在 计数 器 之 下 插入 该 链 
计数 器 递减 ， 然 后 跳 转 到 Loop 


M 9 


EM 


Done: 


——————————————————————————————————————————————————— ÉL 


附录 D ”四 种 计算 机 的 代码 生成 表 


第 9 章 包 括 了 一 个 表 驱 动 模块 的 样板 源 代 码 , 该 模块 将 Itty Bitty 栈 机 器 代码 翻译 为 四 种 流 
行 的 计算 机 的 寄存 器 代码 。 本 附录 用 两 张大 表 列 出 了 这 些 数据 。 这 些 数据 表 应 按 垂 直方 向 阅读 ， 
即 表 中 的 每 一 列表 示 一 种 计算 机 对 应 的 数据 《忽略 另外 三 列 数据 )。 这 些 数据 表 中 未 包含 过 程 
的 入 口 和 出 口 块 ， 也 未 包含 调用 一 个 过 程 的 代码 (留待 读者 作为 练习 )。 


A 
p 


四 种 流行 计算 机 的 TargetMachine 代码 索引 


OpCodeIndex: (11) (370) (68000) 
(Nop) | owo, | 0,0,0, 
[ooo | 0,0,0, 
(Load) 0,7,15, 0,7,14, 0,8,16, 
23,31,39, 23,32,0, 24,32,39, 

(Store) 0,0,57, 0,0,39, 0,0,47, 
23,0,0, 23,0,0, 24,0,0, 


(Cmpr) 0,65,73, 0,0, 48, 0,55,63, 
0,81,0, 0,57,0, 0,71,0, 
(Add) 0,89,97, 0,0,64, 0,79,87, 
0,105,0, 0,73,0, 0,95,0, 
(Subt) 0,113,121, 0,0,80, 0,103,111, 
0,129,0, 0,89,0, 0,119,0, 
(M1py) 0,137,145, 0,0,96, 0,127,135, 
0,153,0, 0,105,0, 0,143,0, 


(Neg) ooo | 0,151,159, 
0,161,0, 0,134,0 0,112,0, 0,167,0, 
(And) 0,142,150 0,0,119, 0,175,183, 


0,128,0, 0,191,0, 
(or) 0,169,177, 0,0,135, 0,199,207, 
0,185,0, 0,144,0, 0,215,0, 
(Jump) 0,0,193, 0,0,151, 0,0,223, 
ooo | 0,0,0, 
(Bee) 0,0,200, 0,0,159, 0,0,230, 
| ooo | 0,0,0; 


表 D-2 四 种 流行 计算 机 的 TargetMachine 代码 


OpCode Table values: (11) (86) (370) (68000) 
Nop (all modes) 2,0, 0, 1,0,0, 2,0,0, 


0,0,1, 0,0,1 0,0,1, 0,0,2, 


160, 7 78,113, 
Load r,#con 4,0,1, 4,1,16, 6,0,2, 
184, 
; 


2,2,2, 2,2,1, 2,4,2, 
192,21, | 184, | 65 32,60, 
Load r,mem 4,0,1, 4,1,16, 4,0,2, 
2,2,2, 2,2,3, 2,2,2, 
64,23, 88,0,208, 32,46, 


340 





OpCode Table values: 


Load r,@r 


Load r,r 


Load r,cc 


Store r,mem 


Cmpr r,#con 


Cmpr r,mem 


Add r,#con 


Add r,mem 


Add r,r 


Subt 


r,#con 


Subt 


r,mem 


Subt 


Mlpy r,#con 


(11) 
2,0,1, 
0,64,2, 
0,18, 
2,0,1, 
0,64,2, 
0,16, 
12,11,1, 
0,128,12, 
2,0,38, 
10,142, 
10,1,1, 
38,10, 
128,21, 
4,0,64, 


N 
N 
N 


53,16, 
4,0,1, 
2,2,2, 
192,37, 
4,0,1, 
2,2,2, 
64,45, 
2,0,1, 
0,64,2, 
0,32, 
4,0,1, 
2,2,2, 
192,101, 
4,0,1, 
2,2,2, 
64,109, 
2,0,1, 
0,64,2, 


say 


4,0,1, 
2,2,2, 
192,229, 
4,0,1, 
2,2,2, 
64,237, 
2,0,1, 
0,64,2, 
0,224, 
4,0,1, 
2,2,2, 
192,117, 


(86) 
2,1,8, 
1,1,2, 
139,4, 
2,1,8, 
1,1,2, 


(370) 
4,1,16, 
1,1,3, 
88,0,208, 
2,1,16, 
1,1,1, 


139,192, 


4,1,8, 
2,2,2, 
137,134, 


N 
心 


4,1,16, 
2,2,3, 
80,0,208, 


4,1,1, 
2,2,2, 
^. 129,248, 


心 


2,2,2, 
59,134, 
2,1,8, 
1,1,2, 
59,192, 
4,1,1, 
2,2,2, 
129,192, 
4,1,8, 
2,2,2, 
3,134, 
2,1,8, 
1,1,2, 
3,192, 


d 


2,2,2, 
129,232, 


4 


[m 





ceo 


， 4,1,16, 
2,2,3, 
89,0,208, 
2,1,16, 


r 


H} 
p 
my 


sete 


4,1,16, 
2,2,3, 
90,0,208, 
2,1,16, 
1,1,1, 
26, 


N 
ui 


[m 


2,8, 
2,2,2, 
1,8, 
11,2, 
43,192, 


HD 
GE) 


(68000) - 
4,0,2, 
2,16,2, 
32,54, 
2,0,2, 
1,1,1, 
32, 
2,1,1, 
0,1,2, 
80,192, 


4,1,1, 
2,2,2, 
45,64, 
6,0,2, 
2,4,2, 
176,188, 
4,0,2, 
2,2,2, 
176,174, 
2,0,2, 
1,1,2, 
176,128, 
6,0,2, 
2,4,2, 
208,188, 
4,0,2, 
2,2,2, 
208,174, 
2,0,2, 
1,1,2, 
208,128, 
6,0,2, 
2,4,2, 
144,188, 
4,0,2, 
2,2,2, 
144,174, 
2,0,2, 
1,1,2, 
144,128, 
6,0,2, 
2,4,2, 
193,252, 








v9 fr] BR Jv SA AAA 341 
( 续 ) 

OpCode Table values: (68000) 
Mlpy r,mem 4,1,8, 4,0,2, 
2,2,2, 

193,238, 

Mlpy r,r 2,0,2, 
1,1,2, 

193,192, 

Neg r 2,0,2, 
1,1,2, 

* And _r, #con [o Lo oen | | 6,0,2, 
| T aa O 2,4,2, 

[| | ha | | 192,188, 

And r,mem | | 4n8 | 4116, | 4,0,2, 
| [ 35,134, | 84,0,208, | — 192,174. 

And r,r | D ae | 2116, | 2,0,2, 
|] nn | anna | 1,1,2, 

| | 035392, | as | 192.128, 

Or r,fcon | 401 |  ^4nn OT 6,0,2, 
| zez | 222 | 2,4,2, 

| — 192,855, | 129,200, | —— | 128.188, 

Or r,mem 4,0,2, 
2,2,2, 

128,174, 

Or r,r 2,0,1, 2,0,2, 
1,1,2, 

22, 128,128, 

Jum mem | 490 ] A565 [| 4v» | 4,0, 0, 
2,2,1, 

96, 

Bcc c,mem 4,0,1, 
2.2.1, 

96; 


